Wąż na własnym ogonie się nie pożywi. Sztuczna inteligencja na sztucznych danych?
W stosunku do danych syntetycznych, czyli generowanych przez AI do szkolenia AI, wysuwa się wiele zastrzeżeń, spośród których najpoważniejsze jest przekonanie, iż mogą one nie odzwierciedlać prawdziwej różnorodności i złożoności świata rzeczywistego. W rezultacie model nauczony na takich danych może działać dobrze tylko w ograniczonym zakresie sytuacji. Istnieje też, zdaniem specjalistów, ryzyko, że model nie nauczy się prawdziwych umiejętności i radzenia sobie ze złożonością świata rzeczywistego, lecz „sztuczek” potrzebnych do generowania realistycznie wyglądających danych syntetycznych. Szkolenie wyłącznie na danych syntetycznych może prowadzić do powstania modeli sztucznej inteligencji, które działają dobrze w sytuacjach eksperymentalnych, ale zawodzą w prawdziwym świecie.
Internet jest nieuporządkowany i niereprezentatywny
Choć większość modeli sztucznej inteligencji wciąż opiera się na danych stworzonych przez ludzi, niektóre firmy i ośrodki podjęły próby wykorzystania danych generowanych przez inne modele. Zjawisko to, które opisywaliśmy w MT m.in. w wydaniu 3/2023, ma jeszcze zbyt małą skalę, by właściwie ocenić jego konsekwencje. Już jednak pojawiają się ostrzeżenia, że AI zjadająca własny ogon niczego pożytecznego nam nie da, a sama sobie zaszkodzi.
Według niedawnych doniesień „Financial Times”, z danymi syntetycznymi do trenowania dużych modeli językowych (LLM) zaczynają eksperymentować duże firmy, w tym OpenAI lub Microsoft. Jednak zwykle więcej wiadomo o tego rodzaju projektach mniej znanych firm, takich jak startup Cohere. Robią to z wielu powodów, przede wszystkim jednak dlatego, że jest to opłacalne. „Dane tworzone przez ludzi”, mówił FT Aiden Gomez, szef Cohere, „są niezwykle drogie”.
Poza względną taniością danych syntetycznych, jest jednak kwestia skali. Szkolenie najpotężniejszych LLM dochodzi powoli do granic możliwości. Sięga już po niemal wszystkie dane, jakie zostały wytworzone przez człowieka i są dostępne. A modele AI, by stały się jeszcze silniejsze, potrzebują ich wciąż więcej i więcej. Wydawałoby się, że ogrom internetu wystarczy, jednak sama skala to nie wszystko. „Sieć jest tak hałaśliwa i nieuporządkowana, że nie jest tak naprawdę reprezentatywna dla danych, których potrzebujemy”, wyjaśnia Gomez.
Ogólnie rzecz biorąc, celem, nad którym pracują firmy takie jak Cohere, jest samoucząca się sztuczna inteligencja, taka, która generuje własne dane syntetyczne. W maju, podczas jednej z konferencji, dyrektor generalny OpenAI Sam Altman zażartował, że jest „całkiem pewny, że wkrótce wszystkie dane będą danymi syntetycznymi”. W tej chwili roi się od startupów sprzedających syntetyczne pakiety danych do szkolenia modeli.
W poszukiwaniu nieskażonej stali
Jednak, jak wskazują krytycy, integralność lub wiarygodność danych generowanych przez sztuczną inteligencję może być łatwo zakwestionowana, biorąc pod uwagę, że nawet sztuczna inteligencja wyszkolona na materiałach generowanych przez ludzi jest znana z popełniania poważnych błędów rzeczowych i tzw. halucynacji, czyli mówiąc prościej, generowania zwykłych nieprawd i bzdur.
W niedawno opublikowanym artykule naukowcy z uczelni w Oksfordzie i Cambridge nazwali te potencjalne problemy „nieodwracalnymi wadami”. Zwracają m.in. uwagę na to, iż w miarę jak treści generowane przez sztuczną inteligencję wypełniają internet, psują dane szkoleniowe dla przyszłych modeli. Wskutek boomu sztucznej inteligencji generatywnej programy, które mogą tworzyć tekst, kod komputerowy, obrazy i muzykę, są łatwo dostępne dla przeciętnego człowieka. I masowo z nich w tej chwili korzystamy. Zatem stopniowo treści tworzone przez AI zajmują internet, a tekst generowany przez LLM-y zapełnia strony internetowe. Sięganie po zasoby sieciowe staje się w rosnącym stopniu korzystaniem z danych syntetycznych. Zdaniem ekspertów, choć nie jest to jeszcze dobrze zbadane, musi to doprowadzić do zatrucia modeli.
Aby pojąć to zjawisko, stosuje się analogie do rozwoju broni i technik nuklearnych w XX wieku. Po zdetonowaniu pierwszych bomb atomowych pod koniec II wojny światowej, kolejne dziesięciolecia testów nuklearnych przyprawiały ziemską atmosferę pewnymi ilościami radioaktywnego opadu. Gdy skażone tak powietrze dostawało się do nowo wyprodukowanej stali, dawało efekt w postaci podwyższonego promieniowania. Oznaczało to, że pojawił się problem z wykorzystaniem tego metalu tam, gdzie poziom promieniowania musi być niski, np. w licznikach Geigera. Zaczęto do nich poszukiwać „starej stali” z wraków statków i w innym poprzedzającym epokę atomową złomie.
Naukowcy przeprowadzili eksperymenty dowodzące, że AI „karmiona” danymi syntetycznymi po kolejnych cyklach szkoleń zaczyna generować pozbawione sensu, całkowicie bezwartościowe, odpowiedzi. Ilia Shumailov, badacz zajmujący się uczeniem maszynowym na Uniwersytecie Oksfordzkim, i jego koledzy nazywają to zjawisko „załamaniem modelu”. Obserwowali to zjawisko w modelu językowym znanym jako OPT-125m, a także w innym modelu sztucznej inteligencji, który generuje liczby naśladujące pismo odręczne, a nawet w prostym modelu, który próbuje oddzielić dwa rozkłady prawdopodobieństwa. Do podobnych rezultatów prowadzi niedawno przeprowadzony przez ośrodki szkockie i hiszpańskie eksperyment z generatorem obrazów AI, zwanym modelem dyfuzyjnym. Pierwszy model umiał generować rozpoznawalne kwiaty lub ptaki. W trzeciej jego wersji obrazy te zamieniły się w rozmyte obiekty. Testy wykazały, że nawet częściowo wygenerowany przez sztuczną inteligencję zestaw danych szkoleniowych był toksyczny, czyli skażony danymi syntetycznymi.
Dotychczasowe badania wskazują, że model doznaje największego uszczerbku na danych „marginalnych”, czyli takich, które są rzadziej reprezentowane w zestawie treningowym modelu. To dane, które są bardziej oddalone od „normy”, a załamanie modelu może spowodować, że wynik sztucznej inteligencji straci różnorodność charakterystyczną dla danych „ludzkich”.
Panuje przekonanie, że załamanie modelu występuje we wszystkich rekurencyjnie szkolonych modelach generatywnych, wpływając na każdą generację modelu. Badacze pokazują też, że załamanie modelu może być wywołane przez szkolenie na danych z innego modelu generatywnego, co prowadzi do zmiany rozkładu. W rezultacie model nieprawidłowo interpretuje problem szkoleniowy. Długoterminowa nauka maszynowa wymaga utrzymania dostępu do oryginalnego źródła danych, które nie zostały wygenerowane przez LLM. Rodzą się problemy związane z rozróżnianiem treści pobranych np. z internetu i potrzebą odróżnienia danych generowanych „naturalnie” (cokolwiek to znaczy) od danych będących dziełem LLM-ów (syntetycznych).
Inżynierowie zajmujący się uczeniem maszynowym od dawna polegają na platformach crodsourcingowych, takich jak np. Mechanical Turk Amazona, które pozwalają dodawać adnotacje do danych szkoleniowych swoich modeli lub przeglądać dane wyjściowe. W jednym z niedawnych badań okazało się, że około jednej trzeciej streszczeń prac na tematy medyczne w Mechanical Turk miała ślady generacji w ChatGPT. Czyli skala „zatrucia” danymi syntetycznymi jest już bardzo duża.
Niektórzy proponują, aby w poszukiwaniu nieskażonych danych sięgnąć do danych starszych, niczym konstruktorzy nieskażonych liczników Geigera po stary złom sprzed epoki atomowej. Dla sieci odpowiednikiem tych starych zasobów jest np. Internet Archive i zawarte tam treści pochodzące z czasów sprzed boomu na sztuczną inteligencję. Przyjmowane jest to sceptycznie. Po pierwsze, może nie być wystarczającej ilości informacji historycznych, aby zaspokoić rosnące wymagania modeli. Po drugie, takie dane są, jak by to powiedzieć… historyczne i niekoniecznie odzwierciedlają zmieniający się świat. Mogą być mało przydatne dla modeli, które mają rozwiązywać współczesne problemy.
Szaleństwo, które prowadzi do syntetycznego Internetu
Richard G. Baraniuk, Sina Alemohammad i Josue Casco-Rodriguez, naukowcy z Uniwersytetu Rice, we współpracy z kolegami ze Stanfordu opublikowali niedawno szeroko komentowany artykuł dotyczący tego problemu, zatytułowany „Self-Consuming Generative Models Go MAD”. MAD jest skrótem od angielskojęzycznego terminu Model Autophagy Disorder, a jednocześnie słowem oznaczającym szaleństwo. Użycie tego słowa nie jest przypadkiem, gdyż naukowcy ci przywołują analogie sięgające choćby choroby szalonych krów karmionych paszą z dodatkiem białka pochodzącego z innych krów.
Kiedy nieświadomie używamy syntetycznych danych, a dotyczy to choćby przypadków generowania obrazów i umieszczania ich w Internecie, prawdopodobnie, jak wskazują badacze, nie jesteśmy świadomi faktu, że to, co produkujemy, będzie w przyszłości trenować modele generatywne. Widzimy to w zbiorze danych Laion-5B, który został wykorzystany do trenowania Stable Diffusion. Obrazy, które ludzie generowali w przeszłości, są wykorzystywane do trenowania nowych modeli generatywnych. Artefakty danych syntetycznych zostają wzmocnione. Jeśli chodzi o generowanie obrazów, to te stają się coraz bardziej monotonne i nieciekawe. To samo stanie się z tekstem - różnorodność nieuchronnie spada.
Nie ma wątpliwości, jak podkreślają uczeni, że „szaleństwo” to (MADness) może znacznie obniżyć jakość danych w Internecie. Zwiększanie udziału danych syntetycznych może obniżyć wydajność całego szeregu narzędzi, w tym wyszukiwarek. A ponieważ generatywna sztuczna inteligencja jest już wykorzystywana do generowania stron internetowych, może się okazać, że modele generatywne prowadzą do wyników, które są również syntetyczne i zawierają hiperłącza do innych syntetycznych stron internetowych. Może w efekcie powstać cały syntetyczny ekosystem, sztuczny Internet, którego zasięg będzie rosnąć. Nawet naukowcom i ekspertom trudno jest przewidywać, do czego to może ostatecznie doprowadzić.
Świat coraz bardziej syntetyczny
Z innej jeszcze perspektywy, tym razem ewolucyjnej, pierwsza generacja dużych modeli językowych i innych systemów generatywnej sztucznej inteligencji została przeszkolona na stosunkowo czystej „puli genowej” na artefaktach pochodzenia ludzkiego, wykorzystaniu ogromnych ilości treści tekstowych, wizualnych i dźwiękowych do reprezentowania istoty naszej wiedzy i kultury. Jednak w miarę zalewania Internetu artefaktami generowanymi przez sztuczną inteligencję istnieje znaczne ryzyko, że kolejne pokolenia, niejako „dzieci” sztucznej inteligencji będą szkolić się na zbiorach danych zawierających duże ilości treści tworzonych przez sztuczną inteligencję. Treści te, coraz mniej związane z ludzkim fundamentem kulturowym, choć naśladują nasz świat, to przy rosnącym poziomie zniekształceń.
„Pula genowa” degeneruje się przez chów wsobny, czyli korzystanie w szkoleniach z danych generowanych przez AI. Przewidywalny efekt to przede wszystkim degradacja systemów sztucznej inteligencji, ponieważ chów wsobny obniża ich zdolność do dokładnego reprezentowania ludzkiego języka, kultury i wiedzy. Po drugie, dochodzi do wtórnego zniekształcenia wiedzy i kultury przez wsobne systemy AI, które w coraz większym stopniu wprowadzają do naszej kulturowej puli genowej deformacje niereprezentujące naszego dorobku cywilizacyjnego.
Z niedawnego orzeczenia amerykańskiego sądu federalnego wynika, że treści generowane przez sztuczną inteligencję nie mogą być objęte prawami autorskimi. Otwiera to drogę do szerszego wykorzystywania, kopiowania i udostępniania artefaktów sztucznej inteligencji niż treści tworzonych przez ludzi z ograniczeniami prawnymi. Może to oznaczać, że ludzie, którzy tworzą, artyści, pisarze, kompozytorzy, mogą tracić na znaczeniu w nowej syntetycznej rzeczywistości. Czyli jest to swoista prawna baza do budowy syntetycznej „kultury” AI.
Oczywiście ludzie tego nie chcą i szuka się sposobu identyfikacji danych syntetycznych. Jednym z pomysłów jest stosowanie szeroko pojętego znaku wodnego dla wszystkiego, co generuje AI. Trudno jednak stosować takie rozwiązania w praktyce, nie wspominając już o tym, że może powstać odrębny nurt rozwiązań oszukujących system oznaczania treści pochodzących od AI, gdyż będzie to po prostu opłacalne. Wszystko wskazuje na to, że nowy świat będzie niekoniecznie wspaniały, ale z dużym prawdopodobieństwem - syntetyczny i będzie znikać, jak to się dzieje z wężem pożerającym własny ogon (2).
Mirosław Usidus