Aktywne Wpisy

Mr_InC0gnit0 +320
Mieszkańcy #krakow macie na ten moment jedyną oraz realną szansę na pozbycie się pasożytów z organizmu. Nie zawiedźcie nas, dajcie z siebie 100% Te #referendum oraz wynik przełoży się na to, że ludzie w końcu będą mogli uwierzyć, że w kupie siła. A nie jak to mawiał pewien patopolityk "To ch…j, d…a i kamieni kupa"
Kaspii +150
#latwogang
Dołączenie pisowskich śmieci z kanału zero automatycznie wyklucza pozytywny odbiór streama, poza tym jego dieta ułożona przez kretyna wrzoska plus brak snu (nie wiem co ma we łbie jeśli myśli że da radę) skończy się źle
Dołączenie pisowskich śmieci z kanału zero automatycznie wyklucza pozytywny odbiór streama, poza tym jego dieta ułożona przez kretyna wrzoska plus brak snu (nie wiem co ma we łbie jeśli myśli że da radę) skończy się źle





Jak to się wpisuje w narrację o AGI za rok?
Twórcy SWE-Bench wypuścili ProgramBench: odtwórz ffmpeg, SQLite albo ripgrep od zera, bez internetu. Aktualny wynik wszystkich modeli: 0%.
Krytyka że “to tylko memoryzacja” mija się z sednem. Długohoryzontalną syntezę działającego systemu z setek wzajemnie zależnych decyzji projektowych ciężko zredukować do recall’u. To inny rodzaj zadania niż łatanie pojedynczego buga.
Benchmark jest też odporny na overfitting w naturalny sposób: model który zapamiętał implementację będzie wyglądał identycznie jak źródło, co łatwo wykryć. A generalizacja na inne programy i tak wymagałaby czegoś głębszego.
0% jest sufitem. Nie sufitem llmow ogólnie. Sufitem llmow jako bazie dla AGI i zastąpieniu sporej liczby programistów w najbliższym czasie. Elo.
źródło: IMG_4282
Pobierz