Wpis z mikrobloga

Hej, jeśli śledzicie informacje o kolejnych lmm, to pewnie was to zainteresuje.

Otóż kolejne źródło podaje, że OpenAI mogło testować GPT-4 na danych treningowych, zwłaszcza w aspekcie problemów programistycznych.

Temat ten podejmował wcześniej Horace He, który po wstępnym testowaniu GPT4 odkrył, że model rozwiązuje 10/10 problemów Codeforces sprzed 2021 roku i 0/10 najnowszych problemów (których nigdy wcześniej nie widział).

Tutaj link do threada:

https://twitter.com/cHHillee/status/1635790335535374336

Nowe badania Narayana z Princeton to potwierdzają. Jak piszą:

"Jako kolejny dowód na poparcie tezy prezentowanej przez Horace Ha, przetestowaliśmy GPT-4 na problemach Codeforces z różnych okresów w 2021 roku. Odkryliśmy, że może on regularnie rozwiązywać problemy z łatwej kategorii z przed 5 września, ale żadnych problemów po 12 września".

Koniec trenowania miał miejsce we wrześniu 2021, a więc model nie jest w stanie rozwiązać ani jednego nowego problemu programistycznego.

Dalej piszą oni, jeszcze ciekawsze rzeczy, otóż:

"W rzeczywistości możemy definitywnie pokazać, że model zapamiętał problemy w swoim zbiorze treningowym: po podaniu promptu z tytułem problemu na Codeforces, GPT-4 podaje link do dokładnego konkursu, w którym występuje ten problem".

Łamie to ogólnoprzyjętą zasadę, że nie testuje się na danych treningowych, bo system w taki sposób nie wnioskuje, ale zapamiętuje. Jest to także dość istotne w innych benchmarkach, które model może nie "rozwiązywać za pomocą wnioskowania", ale zwyczajnie wyciągać odpowiedzi z danych treningowych. Autorzy wskazują, że np. proste zmiany w treści pytań w MBA, które są nieistotne dla człowieka, sprawiają że model się gubi, co tylko dowodzi prezentowanej hipotezy.

Tutaj link do threada:

https://twitter.com/random_walker/status/1637929631037927424?s=46&t=m4xgLKFgqFafJXbRTotN1Q&fbclid=IwAR2iWkxaQuvjp7_rR2jdWlxUZYPCgpLgliG0lP5lAFWOwYT5OZ6ycYRZ2no

i artykułu:

https://aisnakeoil.substack.com/p/gpt-4-and-professional-benchmarks

#programowanie #chatgpt #programista15k #sztucznainteligencja
JamesJoyce - Hej, jeśli śledzicie informacje o kolejnych lmm, to pewnie was to zainte...

źródło: Zrzut ekranu 2023-03-26 213827

Pobierz
  • 49
@JamesJoyce: ChatGPT był trenowany na powszechnie dostępnej zawartości internetu, więc trochę nie wiem skąd zdziwienie. Np. prawdopodobnie większość znanych zadań z LeetCode'a, AdventOfCode itp. też rozwiązuje z marszu - bo są one powszechnie dostępne wraz z rozwiązaniami ( ͡° ͜ʖ ͡°)

Na ten moment wygląda na to, że ChatGPT będzie przełomem przede wszystkim w wyszukiwaniu istniejących informacji.

Pytanie brzmi: co się stanie gdy ludzie zaczna masowo tworzyć
ChatGPT był trenowany na powszechnie dostępnej zawartości internetu, więc trochę nie wiem skąd zdziwienie.


@WaveCreator: Zdziwieniem jest fakt, że nie było podziału tej zawartości na dane treningowy i sprawdzające. Co by mogło oznaczać, że cały system jest "przetrenowany", ale dzięki temu na jak dużej ilości danych operuje, trudno to wykryć. Przynajmniej tak mógłbym wywnioskować na podstawie mojej miernej wiedzy ze studiów.

co się stanie gdy ludzie zaczna masowo tworzyć treści z
@zobq: Wielkie modele są dosć odporne na przetrenowanie. Model nie myśli tylko uzupełnia treść tym co sie nauczył jesli ktoś mu pokazuje zupełnie nową rzecz to nie bedzie jej umiał rozwiązać i to normalne, ale w jakiś sposób uzupełni tekst i to dośc dobrze. Podobnie jak człowiek który nie wie nic na jakiś temat. Nie odpowie poprawnie ale udzieli najlepszej odpowiedzi jaką bedzie w stanie. Model nadal jest rozmyty i nie
Zakładając, że model ciągle będzie "nadganiał" swoją wiedzę przez trening na co raz to nowszych treściach, ciekawe jaki będzie w długim okresie efekt tego, że z czasem coraz częściej będzie trenował na efektach własnej "pracy"?


@WaveCreator: pewnie podobny jak przy "chowie wsobnym" ( ͡° ͜ʖ ͡°)
Podział na zestaw trenigowy i sprawdzajacy jest żeby sprawdzić jak model jest dobry i czy np nie jest przetrewnowany. Ja nie uwazam żeby tak duży model mógł być przetrenowany.


@zibizz1: Jak już mówiłem, moja wiedza o S.I. jest dosyć zakurzona, ale wydaje mi się, że jeśli dany model umie odpowiadać niemal ze 100% poprawnością na dane wejściowe ze zbioru danych uczących, a jednocześnie ma niemal 0% prawidłowych odpowiedzi na dane wejściowe
@zobq: Nie musi być przetrenowany. Wystarczy, że pytania były spoza dziedziny w którym się uczył.

Jak trenujemy model żeby rozróżniał koty od psów, nagle mu dajemy cyfry i oczekujemy, że da dobre odpowiedzi no to nie jest on przetrenowany.

Ludzie ciągle nie rozumieją czym że czat GPT to model językowy, a nie do rozwiązywania układów równań czy tym bardziej do rozwiązywania zadań programistycznych.
@zobq: Pod warunkiem że pytanie z poza zbioru jest podobne do tych ze zbioru. Np jeśli trenujesz model na zbiorze:
2+6
2+9
4+6

To jeśli zdasz pytanie
3x8 to oczywiscie że nie bedzie umiał odpowiedzieć
20-6 także ni edzie umiał odpowiedzieć
ale na 6+7 już opdowie że to 13.1 xD bo t opyatnie z dziedziny

Jeszcze raz to napisze. GPT-4 uzupełnia i dostosowuje tekst a nie wnioskuje i rozkminia problemy algorytmiczne
@WaveCreator: Prawda jest taka, że nie wiemy na czym był trenowany, bo OpenAI postanowiło tego nie podać do wiadomości publicznej. Ktoś podejrzliwy mógłby pomyśleć, że jednym z powodów jest fakt, że np. po sprawdzeniu o co ludzie pytają pierwszą wersję chatagpt (np. o zadania algorytmiczne, fizz-buzzy itd.) dotrenowano GPT4 w odpowiadaniu właśnie na te pytania, żeby jeszcze bardziej napędzić hype.
co się stanie gdy ludzie zaczna masowo tworzyć treści z pomocą GPT i je publikować,


@WaveCreator: Przypomina mi to trochę czas kiedy masowo powstawały blogi z różnymi dupnymi tekstami od domorosłych dziennikarzy, podróżników, filozofów i bóg wie kogo. Nikt tego nie czytał i umarły śmiercią naturalną.
@PochodnaFunkcji: @zibizz1 chłopaki, czy wy przeczytaliście twitty, do których OP linkował? Bo właśnie o tym mowa. O tej samej kategorii zadań.

Ludzie ciągle nie rozumieją czym że czat GPT to model językowy, a nie do rozwiązywania układów równań czy tym bardziej do rozwiązywania zadań programistycznych.

Jeszcze raz to napisze. GPT-4 uzupełnia i dostosowuje tekst a nie wnioskuje i rozkminia problemy algorytmiczne


Tak, wiem. I umie świetnie dostosować tekst odpowiedzi do pytań,
@JamesJoyce: Niewykluczone. Trzeba pamiętać, że ChatGPT to już nie projekt badawczy, tylko produkt, a Microsoftowi od lat bardzo zależało na tym by na jakimś polu ich wyszukiwarka wyprzedziła Google i przy obecnym zaangażowaniu finansowym można zaryzykować tezę, że OpenAI już dawno przestało być Open ( ͡° ͜ʖ ͡°)

Jedno jest pewne, akcje MS zyskują i będą zyskiwały dalej dopóki OpenAI będzie prezentować kolejne "przełomy" i "nowe wersje",
Pytanie brzmi: co się stanie gdy ludzie zaczna masowo tworzyć treści z pomocą GPT i je publikować, nie weryfikując wcześniej ich zgodności z prawdą. Zakładając, że model ciągle będzie "nadganiał" swoją wiedzę przez trening na co raz to nowszych treściach, ciekawe jaki będzie w długim okresie efekt tego, że z czasem coraz częściej będzie trenował na efektach własnej "pracy"?


@WaveCreator: model będzie się uczył na danych wygenerowanych przez samego siebie (rękami
czyli innymi słowy GPT to genialna wyszukiwarka treści, które ktoś gdzieś już kiedyś utworzył. Nic oryginalnego/nowatorskiego nie wygeneruje.


@638F3D: Generalnie tak. Ale sam fakt, że potrafi np. zestawić dwie informacje i przedstawić to w sposób zupełnie zrozumiały dla człowieka (w postaci spójnie logicznego tekstu) to i tak gigantyczny sukces jego twórców.

Ludzki mózg działa w sumie podobnie, przetwarza bodźce które dostarcza mu otoczenie przez zmysły. Tyle że potrafi je przemielić tak,