Twórcy SWE-Bench wypuścili ProgramBench: odtwórz ffmpeg, SQLite albo ripgrep od zera, bez internetu. Aktualny wynik wszystkich modeli: 0%.
Krytyka że “to tylko memoryzacja” mija się z sednem. Długohoryzontalną syntezę działającego systemu z setek wzajemnie zależnych decyzji projektowych ciężko zredukować do recall’u. To inny rodzaj zadania niż łatanie pojedynczego buga.
Benchmark jest też odporny na overfitting w naturalny sposób: model który zapamiętał implementację będzie wyglądał identycznie jak źródło, co łatwo wykryć. A generalizacja na inne programy i tak wymagałaby czegoś głębszego.
0% jest sufitem. Nie sufitem llmow ogólnie. Sufitem llmow jako bazie dla AGI i zastąpieniu sporej liczby programistów w najbliższym czasie. Elo.
@JamesJoyce: matematyczne limity transformera sa juz dawno znane, totez kazdy kto wciska bajki o agi i okolicach bez pomyslu na lepsza architekture nie ma pojecia o czym mowi po prostu ;)
Jak to się wpisuje w narrację o AGI za rok?
Twórcy SWE-Bench wypuścili ProgramBench: odtwórz ffmpeg, SQLite albo ripgrep od zera, bez internetu. Aktualny wynik wszystkich modeli: 0%.
Krytyka że “to tylko memoryzacja” mija się z sednem. Długohoryzontalną syntezę działającego systemu z setek wzajemnie zależnych decyzji projektowych ciężko zredukować do recall’u. To inny rodzaj zadania niż łatanie pojedynczego buga.
Benchmark jest też odporny na overfitting w naturalny sposób: model który zapamiętał implementację będzie wyglądał identycznie jak źródło, co łatwo wykryć. A generalizacja na inne programy i tak wymagałaby czegoś głębszego.
0% jest sufitem. Nie sufitem llmow ogólnie. Sufitem llmow jako bazie dla AGI i zastąpieniu sporej liczby programistów w najbliższym czasie. Elo.
źródło: IMG_4282
Pobierz