Wpis z mikrobloga

GPT-o1 jest przekotem: https://x.com/EpochAIResearch/status/1838720157545648315

Porównanie o1 (jeden prompt) do 4o (wiele promptów, dzielenie zadania na podproblemy, iteracyjne udoskonalanie lub ocenianie wielu wersji odpowiedzi).

4o z systemem udoskonalającym zyskuje góra 5% w GPQA osiągając <55% przy tym samym zużyciu tokenów co o1.

=========

Trzeba mieć na uwadze ograniczenia badania, istnieją potężniejsze systemy rozumowania, oni wykorzystali podstawowe:

4/9 We explored two simple methods to increase token output for GPT-4o: ① Majority voting: choosing the most common answer among k reasoning traces, ② Revisions: giving the model n chances to reflect on and improve its answer

5/9 It's important to note that these are naive approaches. We're aware that more sophisticated methods exist for leveraging inference time compute, such as search against a Process Reward Model verifier. Our goal is to establish a baseline for comparison.


Jeszcze jedno ograniczenie:

10/9 Correction: As @aidanogara points out, our results do not necessarily show that algorithmic improvements explain the difference between o1-preview and GPT-4o. For example, higher quality training data might also explain much of that difference.


=========

#sztucznainteligencja #ai #openai #chatgpt #gpt4
raneli - GPT-o1 jest przekotem: https://x.com/EpochAIResearch/status/1838720157545648...

źródło: GYRx2D-akAMs4xB

Pobierz
  • 4
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

  • 1
@JamesJoyce: Ciągle się uczę tego, co może być najbardziej przydatne. Nie jestem pewien, czy dobrze to odczytałem, ale na ten moment wydaje mi się, że coś już wiem. Później najpewniej będę miał inne zdanie. W tym chaosie informacyjnym trudno się poruszać bez solidnej wiedzy opartej na literaturze. Nie powinienem określać, co jest najlepsze dla wszystkich. Mogę jedynie przypuszczać, co w danej chwili może być najlepsze dla mnie.
  • Odpowiedz