Wpis z mikrobloga

@JamesJoyce Moim zdaniem coraz bardziej widać niedoskonałości metodologii LMSys. Uzmysławia nam, że zaprojektowanie wielostronnego benchmarku dla LLMów jest szalenie trudnym zadaniem.

Gemini na pierwszym miejscu pokazuje, że Google chyba optymalizowało pod konkretne testy. GPT-4o-mini prawie na szczycie? Ten model jest tanim rozwiązaniem dla biznesu i następcą GPT-3.5 turbo.
  • Odpowiedz
@pa6lo tak, wydaje mi się, że od dawna już trzeba znaleźć nowy sposób benchmarkowania llmow. Tylko, problemem jest chyba brak jednoznacznej decyzji, w którą stronę pójść. Brakuje jakiegoś nowego wyznacznika jak praca Cholleta nt. pomiarów inteligencji.
  • Odpowiedz