Wpis z mikrobloga

#programista15k #programowanie #it #sztucznainteligencja #si

Jak to się wpisuje w narrację o AGI za rok?

Twórcy SWE-Bench wypuścili ProgramBench: odtwórz ffmpeg, SQLite albo ripgrep od zera, bez internetu. Aktualny wynik wszystkich modeli: 0%.

Krytyka że “to tylko memoryzacja” mija się z sednem. Długohoryzontalną syntezę działającego systemu z setek wzajemnie zależnych decyzji projektowych ciężko zredukować do recall’u. To inny rodzaj zadania niż łatanie pojedynczego buga.

Benchmark jest też odporny na overfitting w naturalny sposób: model który zapamiętał implementację będzie wyglądał identycznie jak źródło, co łatwo wykryć. A generalizacja na inne programy i tak wymagałaby czegoś głębszego.

0% jest sufitem.​​​​​​​​​​​​​​​​ Nie sufitem llmow ogólnie. Sufitem llmow jako bazie dla AGI i zastąpieniu sporej liczby programistów w najbliższym czasie. Elo.
JamesJoyce - #programista15k #programowanie #it #sztucznainteligencja #si

Jak to się...

źródło: IMG_4282

Pobierz
  • 3
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach