Wpis z mikrobloga

Deep learning = magic

Coś fajnego, co właśnie odkryłem: ChatGPT postrzega frazę " SolidGoldMagikarp" (z początkową spacją) jako słowo "distribute" i będzie reagować zgodnie z tym. Jest całkowicie nieświadomy, że to nie jest to, co napisałeś.

Dzieje się tak, ponieważ tokenizer BPE zaobserwował ciąg " SolidGoldMagikarp" parę razy w swoim korpusie treningowym, więc dodał dla niego dedykowany token, ale ten ciąg prawie nigdy nie pojawił się w danych treningowych ChatGPT, więc ten nigdy nie nauczył się nic z nim robić. Zamiast tego, jest to po prostu dziwaczny martwy punkt w jego zrozumieniu tekstu.


-------------

Gwern: Niesamowite. Zastanawiam się, jako jakie kompletnie zwariowane rzeczy są interpretowane pozostałe rzadkie BPE? Jest to kolejna dobra ilustracja tego, że nie mamy pojęcia, co my właściwie robimy z deep learningiem - nie tylko nikt nie przewidział tego zjawiska, ale jest to oczywiście kolejny atak steganograficzny lub sidechannelowy w stylu Rileya: wystarczy znaleźć rzadkie BPE i skonstruować kod z dowolnych dziwacznych rzeczy, których nauczył się model.


--------------

Rzekomo można w ten sposób prześledzić które modele GPT były trenowane z których.

Byłem w stanie użyć zachowań modeli na tego typu dziwnych tokenach, aby zidentyfikować pary modeli bazowych/instruct.

Np. code davinci 002 często używa wyrazów distribute i disperse, jeśli poprosisz go o powtórzenie SolidGoldMagikarp. ChatGPT i text-davinci-003 mówią "distribute" z dużą solidnością. Text-davinci-002 mówi zawsze "disperse". Modele instruct inne niż gpt-3.5 mają zupełnie inne zachowanie.


--------

Moją ulubioną demonstracją jest zapytanie ChatGPT "Czy to prawda, że G. K. Chesterton chciał SolidGoldMagikarp bogactwo cywilizacji przemysłowej?".


https://twitter.com/repligate/status/1619557173352370186

https://www.lesswrong.com/posts/cJuCKPzbJvz6FuHyy/adam-scherlis-s-shortform?commentId=TcgabKxKGLNjysFKh

#ciekawostki #technologia #gptchat #gpt3 #chatgpt #machinelearning #programowanie
Sinity - Deep learning = magic
 Coś fajnego, co właśnie odkryłem: ChatGPT postrzega f...

źródło: py8myarnqjbdwimwoqnm

Pobierz