AI uczona na danych wygenerowanych przez AI. Wąż zjadający własny ogon
Problemem, który często kojarzy się z symboliką węża zjadającego własny ogon (1) zajęła się metodycznie grupa badaczy z Wielkiej Brytanii i Kanady. Wydała kilka miesięcy temu ostrzeżenie przed „załamaniem modelu” w nauce maszynowej, degenerującym procesem, który może całkowicie odseparować sztuczną inteligencję od rzeczywistości. W ich artykule, zatytułowanym „The Curse of Recursion: Training on Generated Data Makes Models Forget”, naukowcy z uniwersytetów w Cambridge i Oksfordzie, Uniwersytetu w Toronto i Imperial College w Londynie wyjaśniają, że załamanie modelu zachodzi, gdy „generowane dane zanieczyszczają zestaw treningowy następnej generacji modeli”. Jak dodają, „jako szkolone na zanieczyszczonych danych, błędnie postrzegają rzeczywistość”.
Innymi słowy, szeroko rozpowszechnione treści generowane przez sztuczną inteligencję, publikowane obecnie w coraz większych masach w Internecie mogą być zasysane niejako „z powrotem” do systemów sztucznej inteligencji, prowadząc do zniekształceń i nieścisłości.
Problem ten został wykryty w szeregu szkolonych modeli generatywnych i podobnych systemach, m.in. w tym w dużych modelach językowych (LLM), autoenkoderach wariacyjnych i gaussowskich modelach mieszanych. Z biegiem czasu modele AI „żywione” danymi wygenerowanymi przez modele AI zaczynają „zapominać o prawdziwym rozkładzie danych”, co prowadzi do niedokładnych reprezentacji rzeczywistości, ponieważ oryginalne informacje stają się tak zniekształcone, że przestają przypominać rzeczywiste dane.
Istnieją już przypadki, w których modele uczenia maszynowego są całkowicie świadomie szkolone na danych generowanych przez sztuczną inteligencję. Na przykład modele uczenia się języka (LLM) są celowo szkolone na danych wyjściowych z GPT-4. DeviantArt, platforma internetowa dla artystów, umożliwia publikowanie dzieł sztuki stworzonych przez sztuczną inteligencję i wykorzystywanie ich jako danych treningowych dla nowszych modeli sztucznej inteligencji.
Podobnie jak próba kopiowania lub klonowania czegoś w nieskończoność, praktyki te, zdaniem naukowców, mogą prowadzić do większej liczby przypadków załamania modelu. Artykuł, o którym mowa opisuje dwie główne przyczyny załamania modelu. Podstawową z nich jest „statystyczny błąd aproksymacji”, który wiąże się ze skończoną liczbą próbek danych. Druga możliwa przyczyna to „funkcjonalny błąd aproksymacji”, wynikająca z niewłaściwie skonfigurowanego marginesu błędu wykorzystywanego podczas uczenia maszynowego. Błędy te mogą narastać z generacji na generację, powodując kaskadowy efekt pogarszania się jakości danych i wzrostu nieścisłości.
Artykuł przedstawia też tzw. „przewagę pierwszego gracza” w szkoleniu modeli sztucznej inteligencji. Jeśli uda nam się zachować dostęp do oryginalnego źródła danych wygenerowanego przez człowieka, możemy zapobiec szkodliwej zmianie rozkładu, a tym samym załamaniu modelu.
Rozróżnianie treści generowanych przez sztuczną inteligencję na dużą skalę jest jednak trudnym wyzwaniem, które może wymagać koordynacji w całym środowisku badaczy AI.
To ostatnie wydaje się niewykonalne, choćby dlatego, że duża część projektów AI jest prowadzona w krajach, które nie we wszystkim są skłonne do współpracy z zachodnimi specjalistami, np. w Chinach. Z drugiej strony - jeśli te kraje będą rozwijać swoje systemy na danych nie mających związku z rzeczywistością, to na dłuższą metę wyszkolone modele AI tez będą mało przydatne, gdyż przestana rozwiązywać problemy mające związek z realnym światem.
Mirosław Usidus