Czy skalowanie modeli językowych to ślepa uliczka? [EN]

Według niektórych specjalistów modele językowe takie jak GPT nigdy nie przekroczą pewnego poziomu ponieważ będzie brakować materiału na którym mogą trenować. Tak więc zwiększenie parametrów ze 175 miliardów w GPT-3 do 100 bilionów w GPT-4 nie da zapowiadanego skoku technologicznego.

tos-1_buratino z dodany: 15.03.2023, 19:17:16

2
- Facebook
- Twitter

Komentarze (2)

najlepsze

a.....o

konto usunięte 15.03.2023, 19:27:53 via Wykop

Należy sobie zadać pytanie, w jaki sposób uczy się dziecko?
Czy 3 latkowi ładujemy do głowy 175 miliardów parametrów czy 100 bilionów?
Czy może 3 latek ma ich zaledwie kilka tysięcy, które umożliwiają naśladownictwo czy interakcję ze światem zewnętrznym?

Dragonan

15.03.2023, 20:43:28 via Wykop

@antywojo: No i tu jest problem. Bo dokładnie nie wiadomo jak uczy się dziecko. Mamy tylko wycinkową wiedzę na temat tego jak to działa.

Nie wiem co masz na myśli z ładowaniem do głowy 175 miliardów parametrów. Bo raczej by chodziło o to, że w głowie dziecka znajduje się 175 miliardów czegoś co można opisać za pomocą tych 175 miliardów parametrów. Problem w tym, że sieci neuronowe mózgu nijak w swoim