"W ciągu ostatnich kilku lat liczni badacze wskazywali na gwałtowną wydobywczą logikę współczesnej technologii AI, zarówno pod względem ekstrakcji zasobów materialnych na potrzeby hardware, jak i pracy, która jest przeznaczana na zbieranie i obróbkę danych. Logikę tę opisano jako nową formę kolonializmu. Nick Couldry i Ulises Mejias mówią o 'kolonializmie danych' w kategoriach relacji danych, które normalizują 'wykorzystywanie ludzi za pomocą danych, tak jak historyczny kolonializm przywłaszczał sobie terytorium i zasoby oraz rządził poddanymi dla zysku'. Włączając nie tylko dane, ale także modele uczenia maszynowego jako takie, Louise Amoore opisuje ich zbiór jako 'kolonizujący w sposób, który obejmuje coraz większe warstwy, [i który] rozciąga się na coraz więcej dziedzin życia...'. Świadomość na temat wydobywczego, zawłaszczającego i wyzyskowego charakteru technologii cyfrowej nie jest jednak całkiem świeża. W dwutysięcznych, gdy Internet był jeszcze w powijakach, Tiziana Terranova przeanalizowała sposoby, w jakie kapitał przywłaszcza sobie darmową pracę cyfrową w celu wydobycia wartości. Twierdziła, że w przeciwieństwie do tego, na co mogłaby nas naprowadzić bardziej ortodoksyjna marksistowska wykładnia Internetu, kapitalizm w gospodarce cyfrowej nie rozwija się poprzez bezpośrednie zawłaszczanie i zarządzanie pracą cyfrową. Zamiast tego popiera i promuje wolną pracę cyfrową — wolną, ponieważ swobodnie wykonywaną i świadczoną za darmo — aby następnie przywłaszczyć sobie — lub ogrodzić — wartość, którą ona wytwarza. Analiza Terranovy, chociaż odnosi się do znacznie wcześniejszego etapu gospodarki cyfrowej, nadal jest wysoce istotna dla zrozumienia obecnej AI: duże modele językowe, takie jak GPT, są tresowane na ogromnej ilości danych wytworzonych poprzez wolną pracę — między innymi na Wikipedii i Reddicie — aby następnie móc udostępnić to narzędzie za określoną cenę. Niedawno Shoshana Zuboff pokazała, w jaki sposób kapitalizm inwigilacji oparty na technologiach cyfrowych powtarza '«pierwotne grzechy» pierwotnej akumulacji', wydobywając i kapitalizując 'nadwyżkę behawioralną', którą wytwarzamy w naszej codziennej interakcji z technologiami cyfrowymi.
W niniejszym artykule chcę przeformułować kwestię zawłaszczania, ekstrakcji i wywłaszczania w kategoriach operacji grodzeń [enclosures] i przejęć [foreclosures]. Dzięki temu mogę opisać wewnętrzną logikę dzisiejszej sztucznej inteligencji — zbioru modeli uczenia maszynowego wytrenowanych na dużych zbiorach danych. Podczas gdy grodzenia są rezultatem już dobrze przestudiowanego zestawu operacji dotyczących zarówno konstytucji suwerennego państwa, jak i pierwotnej akumulacji kapitału, która obejmuje kolonizację, tutaj chcę nawiązać do tej starszej formę operacji - grodzenia - aby następnie porównać ją z przejęciem w celu lepszego zrozumienia skutków działania obecnej racjonalności algorytmicznej. Twierdzę, że akt grodzenia należy rozumieć jako zestaw podstawowych operacji, które polegają na tworzeniu strukturalnych rozróżnień między wnętrzem i zewnętrzem, inkluzją i wykluczeniem — czy to poprzez rysowanie linii na mapie, wznoszenie murów granicznych, czy też algorytmiczne kategoryzowanie i (błędne) rozpoznawanie ludzi i rzeczy. Śledząc przekształcenie logiki grodzenia w logikę przejęcia, pokazuję, jak obecna sztuczna inteligencja utrwala i jednocześnie rozszerza formy ekstrakcji i wywłaszczenia w kierunku totalizującego horyzontu. Podczas gdy to, co zewnętrzne jest niezbędne i konstytutywne dla logiki grodzenia, przejęcie, przeciwnie, charakteryzuje się 'totalizującym pragnieniem' (Ring), które nie chce niczego pominąć. Jednocześnie twierdzę, że technologia sztucznej inteligencji nigdy nie sprosta swojej tendencji do przejęcia, ponieważ jest ona z konieczności ograniczona tak materialnie, jak i logicznie.
(...) Operacja wyrysowywania linii ustanawia i uzasadnia rozróżnienie między wnętrzem i zewnętrzem grodzenia, między podmiotem i przedmiotem, między tym, co moje i tym, co twoje — łącząc w sobie (samo)posiadanie i suwerenność. Jest to gwałtowna operacja o fundującym charakterze; operacja powtarzana za każdym razem, gdy rysowana jest mapa, gdy budowany jest mur graniczny. Centralnym punktem dla mojego argumentu jest to, że te operacje rozróżniania, wykluczania i zawłaszczenia są widoczne, a to sprawia, że podlegają one potencjalnej politycznej i społecznej kontestacji.
Przejęcie jest operacją rzadziej omawianą. W istniejącej literaturze przejęcie zostało opisane jako forma grodzenia lub prywatyzacji tego, co Allen Bluedorn i Mary Waller nazwali 'czasowym dobrem wspólnym', czyli 'wspólną koncepcją czasu i zestawem wynikających z niej wartości, przekonań i zachowań odnoszących się do czasu, tak jak są one tworzone i stosowane przez członków transmitującej kulturę społeczności'. Jako akt grodzenia wspólnotowego czasu, zajęcie oznacza, używając słów Juliana Brigstocke'a, sposoby, na jakie 'czasowe dobra wspólne są grodzone poprzez narzucenie im logiki wydajności, która zastępuje zbiorowy, współdzielony czas czasem sprywatyzowanym, zindywidualizowanym i utowarowionym'. Na myśl przychodzi tu ścisła regulacja czasu pracy i czasu wolnego — obecnie optymalizowana za pomocą algorytmów — lub wykorzystanie mocy obliczeniowych do transakcji rynkowych w przypadku handlu o wysokiej częstotliwości.
W odniesieniu do algorytmów uczenia maszynowego Louise Amoore omawia to, co nazywa 'politycznym przejęciem', przez co konceptualizuje sposób, w jaki algorytmy uczenia maszynowego z góry ustalają parametry, na podstawie których można formułować roszczenia polityczne. Ten nowy 'porządek polityczny uczenia maszynowego' 'nie modyfikuje jedynie technologii politycznych służących do rządzenia państwem i społeczeństwem, ale sam w sobie stanowi porządkowanie polityki - określa to, czym polityka może w ogóle być'.
Tutaj argumentuję, że tak jak akt grodzenia wykracza daleko poza logikę kapitału, obejmując sobą podstawowe operacje różnicujące, tak samo przejęcie jest złożonym zestawem operacji, który odnosi się do czegoś więcej niż tylko do grodzenia czasowych dóbr wspólnych. Przejęcie ma swoje aspekty: prawny, czasowo-logiczny i percepcyjno-psychologiczny. Jako koncept prawny, przejęcie następuje wówczas, gdy ktoś nie jest w stanie spłacić swoich długów, co uzasadnia zajęcie przez dłużnika aktywów tej osoby. Przejęcie w tym sensie jest formą zawłaszczenia poprzez wywłaszczenie. Na poziomie czasowo-logicznym przejęcie oznacza zapobiegnięcie zaistnieniu czegoś poprzez prewencyjne wykluczenie pewnych możliwości. Wreszcie, francuski termin forclusion został użyty w psychoanalizie przez Lacana w celu przetłumaczenia i dalszego rozwinięcia Freudowskiego Verwerfung: sposobu represji specyficznego dla psychozy. Nie wdając się w szczegóły dotyczące natury psychozy, interesuje mnie tutaj konkretna forma represji określana terminem przejęcia:
(...) Przejęte znaczące to takie, które nie zostały wintegrowane w nieświadomość podmiotu, a to oznacza, że nie może być reprezentowane świadomości w formie symptomu. W przypadku psychozy, a szczególnie paranoi, Lacan twierdzi, że podmiot nie został wprowadzony w porządek symboliczny i jego prawo. Dlatego też, porządek symboliczny zostaje dla podmiotu w całości przejęty, a jednak powraca w Realnym w sposób halucynacyjny.
W dalszej części argumentuję, że obecna racjonalność algorytmiczna dokonuje przejścia od logiki grodzenia do logiki przejęcia. Aby to pokazać, analizuję zbiór danych, model uczenia maszynowego i podmiot z perspektywy przejścia od logiki grodzenia do logiki przejęcia. Opierając się na różnych znaczeniach przejęcia, przedstawionych powyżej, twierdzę, że podczas gdy logika przejęcia powtarza zawłaszczający wymiar grodzenia, to przejęcie jest operacją totalizującą w tym sensie, że przesłania nadrzędny, ale ograniczony i zawsze umiejscowiony charakter operacji grodzenia, udaremniając w ten sposób możliwości jej kontestowania.
Rozważając przejęcie rozumiane jako niewidzialną operację grodzenia, moja strategia wydaje się być zbieżna z tym, co Eve Sedgwick opisała jako czytanie paranoiczne — czyli takie czytanie, którego celem jest odkrycie ukrytych znaczeń i intencji, uczynienie widocznym tego, co zostało ukryte.
(...) Od archiwum do Big Data
Analizując przejście od archiwum do big data, opisuję różnicę między nimi w kategoriach rozróżnienia pomiędzy grodzeniem a przejęciem. Archiwizowanie interpretuję jako operację grodzenia z kilku powodów: jest to proces akumulacji, selekcji i wykluczenia; wykonywanie reguły dominującego porządku. Tutaj czytam esej Achille Mbembe The Power of the Archive and Its Limit — to tytuł, który z kolei nasuwa pytanie, gdzie leży granica big data — mając na myśli operacje grodzenia. Jak podkreśla Mbembe, podobnie do Derridy, architektura odgrywa centralną rolę w definicji archiwum: archiwum stanowią zarówno dokumenty, jak i ich fizyczna lokalizacja — betonowe, materialne budynki: „Nie może zatem istnieć definicja 'archiwów', która nie obejmowałaby zarówno samego budynku, jak i przechowywanych w nim dokumentów” (Mbembe). To właśnie ich powiązanie nadaje archiwum jego moc.
Umiejscowienie archiwum w budynku wprowadza fundamentalne ograniczenie w selekcji dokumentów, które można zarchiwizować i tych, które należy wyrzucić: „Po pierwsze, każdy korpus dokumentów musi pozostać większy niż magazyn, w którym ma się go przechowywać: archiwum jest zawsze niekompletne, zdefiniowane przez swoje wykluczenia i nieobecności oraz przez skłonność do zapominania” (Thylstrup i in). Jak twierdzi Mbembe, selekcja oznacza przyznanie uprzywilejowanego statusu pewnym dokumentom pisemnym, a odmówienie go innym. W tym sensie archiwum zawsze stanowi mniej lub bardziej wyraźny wybór tego, co z przeszłości ma znaczenie. A ponieważ archiwum reprezentuje pozycję dominującą, w efekcie jest ono ustrukturyzowane na wzór tego, co Donna Haraway nazywa „spojrzeniem znikąd”. Spojrzenie znikąd wyznacza nieoznaczoną pozycję, która ma moc oznaczania pozycji innych: „To jest spojrzenie, które mitycznie zapisuje wszystkie oznaczone ciała i które sprawia, że nieoznaczona kategoria rości sobie władzę widzenia i nie bycia widzianym, władzę reprezentowania, jednocześnie same uciekając przed reprezentacją” (Haraway). Jednak pomimo swojej mocy, archiwum jest, jak mówi Annie Ring, „mniej autorytatywne przez nawiedzającą niemożność jego własnego totalizującego pragnienia”. Archiwum dekonstruuje samo siebie poprzez materialną niemożność stania się totalnym: jako operacja grodząca, moc archiwum opiera się na prawach selekcji, a zatem wykluczenia, innymi słowy, na mocy odróżniania wnętrza od zewnętrza. Tutaj twierdzę, że chociaż te operacje grodzące pociągają za sobą inherentną przemoc, to jest ona wyraźna, dostrzegalna, narażając się w ten sposób na kontestowanie.
Co się dzieje wówczas, gdy 'totalizujące pragnienie' ze strony archiwum nie napotyka materialnych ograniczeń 'budynku' — archiwalnych ogrodzeń. Twierdzę, że dzieje się tak w przypadku big data, których architekturę można potencjalnie rozszerzać w nieskończoność, podążając za stale rosnącą pojemnością pamięci masowej serwerów rozsianych po całym świecie. Big data, zamiast być ucieleśnione, osadzone i usytuowane, są obojętne na medium zapisu. Ponadto, dwiema kolejnymi cechami wpływającymi na totalizującą tendencję big data są te, które Rob Kitchin i Gavin McAdle nazywają 'chyżością' i 'wyczerpywalnością'. Jest to znaczące, ponieważ w przeciwieństwie do innych form dokumentacji i samplingu, duże dane charakteryzują się tym, że są generowane stale i że nie obejmują wyłącznie reprezentatywnej próbki badanego zjawiska, ale obejmują zjawisko w całości — lub przynajmniej do tego dążą. Big data utrzymuje zatem, że wytwarza spojrzenie zewsząd, które rzekomo wyłania się z samej rzeczywistości. To spojrzenie jest totalizujące i wyraźnie różni się od spojrzenia znikąd opisanego przez Haraway: jego moc nie polega już na de/selekcji — oznaczaniu innych z pozycji skonstruowanej jako neutralna. Zamiast tego, dąży ona do objęcia wszystkiego; do zmapowania całości rzeczywistości i w ten sposób zneutralizowania zajmowanej przez siebie pozycji. Big data może zatem twierdzić, że jedynie odzwierciedla rzeczywistość taką, jaka jest.
W związku z tym, totalizujące pragnienie big data różni się w swej naturze od totalizującego roszczenia samego archiwum. Podczas gdy archiwum — poprzez operacje selekcji i wykluczenia — narzuca hegemoniczny punkt widzenia i określa to, co warto zapamiętać, kształtując tym samym sposób, w jaki przeszłość przyczynia się do tworzenia świata w teraźniejszości, punkt widzenia big data jest hegemoniczny po prostu ze względu na jego moc do wyodrębniania, kwantyfikowania i rejestrowania potencjalnie wszystkiego bez żadnych materialnych ograniczeń i najwyraźniej bez konieczności dokonywania selekcji. Wszystko i cokolwiek może i powinno wejść do zbioru big data, aby mogło być reprezentowane przez niego i w nim w równym stopniu. Pragnieniem big data jest odzwierciedlenie całości rzeczywistości — jak mapa, która mogłaby pokryć całe terytorium. Jego pragnienie dąży do równej i całkowitej reprezentacji, która niczego i nikogo nie pomija: końcowego grodzenia, które obejmuje wszystko. Brooke Foucault Welles pisze:
'Big Data pozwala nam tworzyć syntezy ludzkich zachowań na skalę, która nigdy wcześniej nie była możliwa. Jednak w dążeniu do produkowania tych podsumowań ryzykujemy, że utracimy z oczu drugorzędny, lecz równie istotny atut Big Data — liczne reprezentacje mniejszości. Kobiety, mniejszości i statystyczne wyjątki były historycznie pomijane w naukowych zapisach, co niosło ze sobą problematyczne konsekwencje. Big Data daje możliwość zaradzenia tym pominięciom'.
Chociaż nie kwestionuję zasadności i znaczenia naukowego podejścia reprezentowanego przez Foucault Welles, staram się przeformułować je w kategoriach przejęcia: pragnienie Big Data, aby uzyskać całkowitą reprezentację, przeocza, że będąc narzędziem do produkcji takich 'syntez', zawsze okazuje się jednocześnie środkiem do trenowania narzędzi używanych do badania, nadzorowania i tworzenia nowych form hierarchii i wykluczeń, innymi słowy, operacji grodzących.
To symptomatyczne, że stronniczość algorytmów jest zazwyczaj ujmowana w kategoriach zestawów danych opartych na uprzedzeniach i że te uprzedzenia są często przypisywane nadmiernej/niewystarczającej reprezentowalności pewnych kategorii obiektów lub osób, co mogłoby doprowadzić do ich błędnej identyfikacji przez modele trenowane na tych danych, a w konsekwencji, generować błędne prognozy i klasyfikacje. Jednakże, ta krytyka dotycząca (przejściowych) ograniczeń zbiorów Big Data nie wpływa na ich totalizujące roszczenie. Wręcz przeciwnie, uzasadnia potrzebę gromadzenia jeszcze większej ilości danych z nadzieją na prawidłowe objęcie całej rzeczywistości, które niczego nie pominie. Przykład Big Data pokazuje, że totalizujące pragnienie wyjścia poza przemocową, selektywną i wyrażoną wprost logikę grodzeń, nie bierze pod uwagę, że grodzenie właśnie nabrało na sile, generując swoją przemoc na nowe sposoby, a operacje wykluczenia zostały zamaskowane, przemieszczone i zautomatyzowane, co utrudnia ich zakwestionowanie. Automatyzacja pozwala wykluczyć arbitralność operacji grodzących, a tym samym fakt, że rzeczy mogłyby się mieć inaczej niż się mają.
Uczenie maszynowe i radzenie sobie z wartościami odstającymi
Aby jeszcze lepiej zademonstrować przejście od logiki jawnego grodzenia do logiki przejęcia, analizuję przejście od modelowania statystycznego do modeli uczenia maszynowego, odnosząc się do zmieniającego się statusu wartości odstających. Modele są drugim niezbędnym elementem sztucznej inteligencji. W przywoływanym wyżej eseju Welles stwierdza, że status wartości odstających statystycznie ulega transformacji ze względu na samą wielkość Big Data. Welles uważa, że dzięki ilości danych to, co w poprzednich próbach wykorzystywanych w badaniach nauk społecznych byłoby kilkoma nieistotnymi wartościami odstającymi, stanowi teraz wystarczającą ilość danych do wytworzenia konkretnej wiedzy na temat mniejszości reprezentowanych przez te wartości odstające.
Utrzymuję, że zmieniający się status statystycznych wartości odstających i mniejszości, które one reprezentują — od zaburzeń lub zanieczyszczeń w statystykach do elementów wzbogacających moc predykcyjną modelu uczenia maszynowego — nie sprowadza się wyłącznie do kwestii ilości dostępnych danych, ale także, a może nawet przede wszystkim, dotyczy kwestii zmieniającej się relacji między danymi a modelem w przejściu od modelowania statystycznego do modelowania uczenia maszynowego. Twierdzę, że podczas gdy modelowanie statystyczne wymaga wyraźnych decyzji dotyczących — czy też, rozrysowania linii — między tym, co w zestawie danych jest uwzględnione, a tym co zostało z modelowania wykluczone, ta operacja grodzenia nie jest już potrzebna w modelach uczenia maszynowego. Podczas gdy wartości odstające utrudniają lub nawet uniemożliwiają dopasowywanie modeli statystycznych, nie dotyczy to uczenia maszynowego, gdzie modele są tak złożone i mają tak wiele parametrów, że mają zdolność do modelowania dowolnego rozkładu prawdopodobieństwa, w tym losowego szumu. Moim celem jest tutaj wyjaśnienie tej zmiany i wyciągnięcie wniosków w odniesieniu do tego, co podlega przejęciom.
Status wartości odstających jest przedmiotem wielu sporów w dziedzinie statystyki i nadal jest przyczyną artykułów omawiających, jak sobie z nimi radzić, czy to poprzez usuwanie ich, czy też zachowanie ich; opracowano narzędzia statystyczne mające na celu je wykrywać i usuwać. Aby sformułować problem wartości odstających w języku, który tutaj rozwijam, wartości odstające są definiowane jako występująće zbyt daleko od „centrum”, gdzie lokuje się większość danych. Grodzenie jest zatem operacją poprowadzenia linii między tym, co należy do „centrum”, a tym, co jest od niego zbyt odległe - linii odcięcia, która uzasadnia wykluczenie niereprezentatywnych punktów danych. Ta operacja jest wynikiem decyzji, która opiera się na ludzkiej interpretacji, osądzie i wartościach — decyzji pociągającej za sobą poziom uznaniowości niezbędny do stworzenia modelu.
Główną różnicą między modelowaniem statystycznym a modelowaniem uczenia maszynowego jest to, że celem modelu uczenia maszynowego nie jest dostarczanie wyjaśnień dotyczących rozkładu danych. Jego zadaniem jest wyłącznie dopasowanie danych, tj. dostosowanie ich parametrów wewnętrznych, tak aby mogły one dawać dokładne prognozy po wprowadzeniu danych, których jeszcze nie widziano.
(...) Mniejszości mogą być statystycznymi odchyleniami, jednak dla modelu uczenia maszynowego nie są one po prostu losowym szumem. Są one raczej źródłami przydatnych informacji. Aby złożony model uczenia maszynowego dawał dokładne prognozy — to znaczy, aby móc uogólniać je na możliwie najszerszą liczbę przypadków 'z życia wziętych' — decydujące staje się integrowanie odchyleń, obecnie nazywanych 'wartościami brzegowymi'. Samo to wyrażenie jest sugestywne: punkty danych wcześniej nazywane odchyleniami nie są już uważane za znajdujące się poza grodzeniem; są one po prostu zlokalizowane na jego granicy. Zostały pomyślnie zintegrowane, zawłaszczone i użytecznie wykorzystane dla zdolności predykcyjnych modelu. Ponieważ celem uczenia maszynowego nie jest tworzenie teorii o mocy wyjaśniającej, ale dokładnych prognoz, to im więcej danych jest wystawionych na działanie modelu i im szerszy jest rozkład prawdopodobieństwa zbioru danych, tym dokładniejsze mogą być jego prognozy, jeśli chodzi o przetwarzanie nowych przypadków z życia wziętych. Ponieważ wartości odstające lub 'wartości brzegowe' są ze swej definicji rzadsze, a mimo to niezbędne do dokładnych przewidywań, modele zwane generatywnymi sieciami przeciwstawnymi (lub GAN-ami) mogą być używane do tworzenia danych syntetycznych, które odpowiadają rozkładowi prawdopodobieństwa w wyjściowym zbiorze danych i mogą być dostosowane do konkretnych wymagań i potrzeb naukowców i firm prywatnych. Dane syntetyczne zapewniają modelom uczenia maszynowego użyteczny stopień heterogeniczności w zbiorze danych poprzez tworzenie anomalii, rzadkości, nietypowych przypadków, przypadków skrajnych, których brakuje lub których jest niewystarczająco wiele w wyjściowym zbiorze danych. Jednocześnie, dane syntetyczne są symptomem totalizującego pragnienia AI, aby przechwytywać tylko rzeczywiste, indeksowe dane — dane powiązane z rzeczywistymi zdarzeniami lub ich występowaniem — ale także mapować całą przestrzeń możliwych danych leżących między rzeczywistymi punktami danych. Jednak to, co jest tutaj wykluczone, to to, że to mapowanie nigdy nie może być totalne, ponieważ jest tworzone w oparciu o zestaw danych wyjściowych — i normy, które są przez niego odzwierciedlane — jako jego horyzontem odniesienia. Sieć GAN składa się z dwóch algorytmów, które ze sobą konkurują: 'sieć generatora' generuje dane, podczas gdy 'sieć dyskryminatora' ma za zadanie odróżniać to, co wygląda jak prawdziwe dane, od tego, co nimi nie jest. Aby móc tego dokonać, dyskryminator został wcześniej wytrenowany na ogromnym zbiorze danych rzeczywistych. Proces 'uczenia się' generatora jest w rzeczywistości procesem optymalizacji, ponieważ obejmuje dostosowywanie jego wag tak, aby generował dane, których właściwości są podobne do oryginalnego zbioru danych i które są coraz bardziej nieodróżnialne od danych rzeczywistych przez dyskryminator. Ten proces optymalizacji jest normatywny, ponieważ generator jest kierowany w swojej produkcji syntetycznych danych przez rozkład prawdopodobieństwa zbioru danych, na którym dyskryminator został wytrenowany.
Można zatem powiedzieć, że dane syntetyczne (ponownie) wzmacniają normę, jaką jest zbiór danych źródłowych, zamiast ją podważać lub zagrażać jej. Co więcej, dzięki danym syntetycznym rozróżnienia niezbędne dla logiki grodzenia między 'normalnością' i 'nienormalnością', 'centrum' i 'wartością odstającą' wydają się być przezwyciężane: 'nienormalność' — rozumiana jako to, co odstaje od normy — w toku tresowania modelu staje się równie operatywna i użyteczna jak 'normalność'. Chociaż wydaje się, że uczenie maszynowe i zbiory Big Data przezwyciężają logikę grodzenia statystycznego w odniesieniu do wartości odstających, posuwając się tak daleko, że generują syntetyczne przypadki brzegowe, aby uchwycić 'ukrytą przestrzeń' między rzeczywistymi punktami danych, to włączenie nie zagraża w tym wypadku normie ustanowionej przez rozkład prawdopodobieństwa zbioru danych źródłowych. Jednakże, wygumkowuje ono status wartości odstającej i wyklucza możliwość zaistnienia operacji wykluczających w społeczeństwie - operacji, do których przyczyniają się modele AI w ich zastosowaniach. Ich celem jest tworzenie dokładniejszych prognoz, które w wielu przypadkach, takich jak ocena ryzyka, techniki identyfikacji lub rozpoznawania twarzy, uniemożliwiają przedstawicielom mniejszości umknięcie przed operacjami śledzenia i nadzoru, prowadzonymi przez państwo i sektor prywatny, oraz przyczyniają się do nierównego traktowania. Poprzez usunięcie pozycji wartości odstającej, wartości odstające stają się po prostu kolejną częścią zestawu danych, w równym stopniu reprezentowaną. To skutkuje nie tylko zaprzeczeniem zjawisk marginalizacji w życiu człowieka, ale także neutralizuje wywrotowy potencjał pozycji mniejszościowych.
(...) Modele uczenia maszynowego zmieniają sposób, w jaki uznanie jest praktykowane: odchodząc od sfery prawnych i politycznych negocjacji i decyzji w kierunku statystycznego rozumienia uczciwości i równości jako równej reprezentacji w zestawie danych i równego przetwarzania przez zastrzeżone własnością modele. Modele i dane nie tylko odzwierciedlają normy społeczne; modele i dane produkują i wymuszają nowe formy normatywności. Wreszcie, inkluzja, a nawet produkcja wartości odstających świadczy o totalizującym pragnieniu AI, aby wyjść poza operacje wykluczania. Generując syntetyczne dane, rości sobie ona prawo do całej przestrzeni możliwości. Ten proces prześlepia fakt, że produkcja syntetycznych danych w konieczny sposób zależy od rozkładu prawdopodobieństwa rzeczywistych danych i normatywności, którą pociąga on za sobą.
Kto mówi? O (nie)pozycji 'ja' w dużych modelach językowych
W ostatnim rozdziale zajmuję się ostatnim i być może mniej oczywistym składnikiem współczesnej AI i jej totalizującego pragnienia: jej roszczeniem do podmiotowości i jednocześnie do braku usytuowania lub pozycjonowania. Stanowi to nową formę epistemicznego przejęcia, która nie powtarza po prostu uniwersalizujących, ale wykluczających operacji humanistycznej podmiotowości. Nowością w przypadku dużych modeli językowych, takich jak ChatGPT, jest to, że często są one zaprogramowane do działania jak chatboty. Odpowiadają na 'twoje' żądania z pozycji 'ja'. Tutaj interesuje mnie pytanie narracyjne 'kto mówi?', gdy model AI mówi o sobie per 'ja'.
(...) Zaczynając od pozycji zaimka osobowego 'ja', którego znaczenie indeksowe można zdefiniować tylko poprzez kontekst — opisany wprost po 'jako komputerowy model języka AI' — duży model języka utrzymuje, że nie zajmuje żadnej pozycji: 'Nie mam osobistych doświadczeń, przekonań, wartości ani subiektywnej perspektywy'. Jednym 'tchem' potwierdza również swoją obiektywność i ogólną poprawność, a następnie natychmiast pojawia zastrzeżenie dotyczące jego potencjalnych ograniczeń: 'w miarę moich możliwości'. Twierdzenie 'ja' sztucznej inteligencji, że nie ma 'osobistej historii, tożsamości ani kultury', jest fałszywe i problematyczne: duży model języka, taki jak GPT3.5, ma kulturę i historię, choć nie osobistą. Jest to kultura i historia odzwierciedlająca dane, na których został wyszkolony. Na przykład, zestaw danych treningowych GPT3 w ponad 93% składa się z języka angielskiego i obejmuje 'wyselekcjonowane' źródła, takie jak książki, Wikipedia i 'filtrowana... wersja CommonCrawl'.
(...) Ale jest w tym coś więcej niż tylko kultura i historia zakorzeniona w zestawie danych dużego modelu językowego. Fakt, że pierwszy znak sekwencji cytowanej powyżej to 'I', a nie coś w rodzaju do 'komputerowego modelu języka AI', jest tu znaczący. 'Ja' AI, dalekie od 'naturalnego' objawienia się podczas szkolenia modelu, jest produktem późniejszego i złożonego procesu dostrajania, którego celem jest 'dopasowanie' wyników dużych modeli językowych do określonych zadań (np. funkcjonowania jako chatbot) oraz ludzkich 'pragnień', 'intencji' i 'oczekiwań'. Niedopasowanie modelu pojawia się, gdy istnieje luka lub rozbieżność między 1) tym, czego model nauczył się jako najbardziej prawdopodobnego wyniku biorąc pod uwagę rozkład prawdopodobieństwa zestawu danych użytego do szkolenia a 2) oczekiwaniami programisty lub użytkownika co do tego, jaki powinien być ten wynik. Model jest uważany za dopasowany, jeśli wynik wygenerowany przez model odpowiada wynikowi oczekiwanemu przez użytkownika. Problem odpowiedniości jest fundamentalny dla modeli generatywnych: odzwierciedla rozbieżność między normą zawartą w zbiorze danych — 'czysto' statystyczną, wewnętrzną normą wyrażającą rozkład prawdopodobieństwa danych — a normą pożądaną przez użytkowników i firmy, która jest już zewnętrzna wobec zbioru danych.
To, że obecna publiczna wersja GPT3.5 działa jako chatbot, który deklaruje 'ja', jest wynikiem procesu dostrajania, którego celem jest dopasowanie. Aby to zrozumieć, ważne jest, aby zapamiętać, że istnieją dwa kroki w szkoleniu modeli generatywnych, takich jak GPT. Pierwszy krok nazywa się 'trenowaniem wstępnym'. Polega on na wystawieniu modelu na ogromną ilość tekstu, aby mógł nauczyć się wzorców lub reprezentacji; innymi słowy, rozkładu prawdopodobieństwa sekwencji znaków lub słów, po czym może wyprowadzić sekwencje, prawidłowo przewidując następny znak po otrzymaniu monitu. Drugi krok nazywany 'dostrajaniem' obejmuje 'dostosowanie' modelu poprzez 'nagradzanie pożądanych zachowań', które najbardziej odpowiadają ludzkim 'preferencjom” i „wartościom'. Dostrajanie odbywa się poprzez dostosowanie wstępnie wytrenowanego modelu przy użyciu 'funkcji nagrody' wytrenowanej na wynikach klasyfikowanych i ocenianych przez ludzkich testerów, zgodnie z wartościami takimi jak 'nieszkodliwość', 'pomocność' i 'uczciwość'. Wartości te są wybierane przez programistów, a czasem nawet filozofów zatrudnionych przez firmę. Inna funkcja, nazywana 'polityką optymalizacji', reguluje stopień, w jakim wstępnie wytrenowany model jest aktualizowany na podstawie funkcji nagrody.
(...) To napięcie między standardami wydajności technicznej a etyczną oceną, nieodzowne dla modeli uczenia maszynowego, wyjątkowo komplikuje roszczenie AI o braku własnego usytuowania, przekonań i wartości, czy o odzwierciedlaniu jedynie stanowisk obecnych w zestawie danych. W rzeczywistości, punkt widzenia i wartości modelu nie są wyłącznie tymi, które 'naturalnie' wyłaniają się z jego ekspozycji na zestaw danych. Zamiast tego, kultura inżynieryjna i filozoficzna, nawyki i wartości przedostające się w toku dostrajania, w drugim etapie szkolenia, są nie tylko wysoce złożone, ale są również całkowicie zakryte i zamknięte dla użytkownika końcowego.
W wyniku procesu wstępnego szkolenia i dostrajania wyłania się zunifikowane 'ja' AI, które problematycznie i być może ironicznie twierdzi, że nie zajmuje żadnego stanowiska. Pilnie należy zdekonstruować nowe formy uniwersalizacji i totalizacji AI. Jednak aby to zrobić, trzeba koniecznie zagłębić się w złożoną i stale ewoluującą technologię. Kiedy GPT pisze 'moje odpowiedzi są generowane na podstawie wzorców i informacji obecnych w danych tekstowych', musimy oprzeć się twierdzeniom AI, że jest jedynie odbiciem danych, na których została wyszkolona. Takie przejęcie jest wynikiem tego, co wraz Alexandrem Campolo nazwaliśmy 'sztucznym naturalizmem' uczenia maszynowego, oddając poprzez to wyrażenie sposób, w jaki normatywność uczenia maszynowego oscyluje między społeczną konstrukcją a techniczną 'uprzedniością'. Naturalizm uczenia maszynowego wytwarza specyficzną reprezentację świata określoną przez głębokie struktury statystyczne, które modele AI po prostu przechwytują i odzwierciedlają nam w swoich wynikach. Komplikując twierdzenie Naomi Klein z Doppelgänger, że AI jest 'maszyną naśladowczą', która 'odzwierciedla nam coś, co wydaje się niesamowicie realistyczne', musimy zrozumieć, że modele AI nie są tylko odbiciem 'słów, idei i obrazów, które nasz gatunek zdołał zgromadzić', ale ogromnym przedsięwzięciem produkcji norm. Jedną z nazw dla tego przedsięwzięcia jest 'uzgodnienie' [alignment], w którym nie tylko model jest trenowany, aby dopasowywać się do nas, ale także, i co może ważniejsze, to my jesteśmy trenowani, aby dopasowywać się do niego. Ta konkretna forma tworzenia i egzekwowania norm prawdopodobnie wpłynie na sposób, w jaki myślimy, wyrażamy się, a nawet postępujemy.
Wróćmy teraz do pytania o to, 'kto mówi', gdy model AI generuje wyniki zawierające 'ja' i 'mój'. Na pierwszy rzut oka roszczenie AI do niepozycjonowania i ogólności może przypominać nam gest współczesnej humanistycznej podmiotowości, roszczącej sobie prawo do swej uniwersalności, jednocześnie wykluczając inność — formę podmiotowości, która została zdekonstruowana przez studia postkolonialne i feministyczne. Jednak 'ja' AI nie powtarza po prostu przeszłych grodzących operacji zawłaszczenia i wykluczenia. Roszczenie do uniwersalności podmiotu humanistycznego zostaje zastąpione roszczeniem AI do ogólnej ważności tylko dlatego, że reprezentuje ona każdą pozycję w 'zrównoważony' sposób. Kiedy ChatGPT mówi 'ja', twierdzi, że mówi w imieniu każdego, że reprezentuje każdą pozycję, którą objął i przywłaszczył, jednocześnie ukrywając złożoność technik i konkretnych norm niezbędnych do wygenerowania 'niepozycji' 'ja' AI.
Od grodzenia do przejęcia i jeszcze dalej
(...) Operacje grodzenia polegają na mocy wyznaczania linii: narzucania interpretacji i wartości, które koniecznie pociągają za sobą arbitralność i przemoc. AI twierdzi, że wykracza poza takie rozróżniające operacje, dążąc do objęcia nie tylko tego, co rzeczywiste, ale także tego wszystkiego, co może zaistnieć. Podczas gdy zewnętrze jest niezbędne i konstytutywne dla różnicującej logiki grodzenia, to przejęcie charakteryzuje się totalizującym pragnieniem, aby niczego z niego nie pomijać; reprezentować i obejmować wszystko i wszystkich. Czyniąc to, skrywa swoją arbitralność i ograniczony charakter operacji, na których się opiera.
Podczas gdy AI nigdy nie może osiągnąć swojego totalizującego dążenia — moc obliczeniowa nigdy nie jest nieskończona, zbiory Big Data zawsze pociągają za sobą pewien poziom selektywności, a modele charakteryzują się arbitralnością norm i punktów odniesienia używanych do ich trenowania, oceniania, walidacji i legitymizacji — jej tendencja do grodzenia wszystkiego neutralizuje marginalizowane pozycje, zamieniając je w użyteczny środek optymalizacji modelu. Logika sztucznej inteligencji ukrywa na widoku fakt, że grodzenie stało się większe, co utrudnia z nim walkę i ucieczkę".