Wpis z mikrobloga

@JanPawelDrugiLechWalesaPierwszy: IMO:
Programistą nie jestem, ale widziałem już benchmarki.

Dla mnie najważniejszym benchmarkiem jest taki, który sprawdza ogólne umiejętności modelu, czyli procent do osiągnięcia AGI. Na ten moment najlepszym takim benchmarkiem jest ten: https://arcprize.org/leaderboard
I tam zakładka: ARC-AGI-2, gdzie GPT-5 uzyskuje 10% (o3 miał 6%), gdzie Grok 3 Thinking ma 16%. Bieda z
Arkass - @JanPawelDrugiLechWalesaPierwszy: IMO:
Programistą nie jestem, ale widziałem...

źródło: image

Pobierz
  • Odpowiedz
przecież podobnoi nikt nie wie co to AGI to jak mogą stwierdzić zę jakiś model ma 16% AGI?


@elo_kebab: IMO:
Nie ma consensusu czym jest AGI. Jest wiele definicji, ale uśredniając je, najwięcej definicji opisuje AGI jako AI potrafiące rozumować nie gorzej od człowieka, i wykonywać zadania umysłowe nie gorzej od człowieka, w tym pracę umysłową.

Info od AI o
  • Odpowiedz