Wpis z mikrobloga

Czy magiczny prompt z reddita faktycznie sprawia, że Claude 3.5 (Sonnet) jest w stanie pokonać o1-preview?
No nie. Ale zauważalnie poprawia rozumowanie Claude'a.

#sztucznainteligencja #claude #ai

TL;DR:

🧠 Combines Dynamic Chain of thoughts + reflection + verbal reinforcement prompting

📊 Benchmarked against tough academic tests (JEE Advanced, UPSC, IMO, Putnam)

🏆 Claude 3.5 Sonnet outperformes GPT-4 and matched O1 models

🔍 LLMs can create internal simulations and take 50+ reasoning steps for complex problems

📚 Works for smaller, open models like Llama 3.1 8B +10% (Llama 3.1 8B 33/48 vs GPT-4o 36/48)

❌ Didn’t benchmark like MMLU, MMLU pro, or GPQA due to computing and budget constraints

📈 High token usage - Claude Sonnet 3.5 used around 1 million tokens for just 7 questions


https://x.com/_philschmid/status/1842846050320544016
PeterWeiss - Czy magiczny prompt z reddita faktycznie sprawia, że Claude 3.5 (Sonnet)...

źródło: GZL3o-qaoAAquYL

Pobierz
  • 5
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

  • 1
@PeterWeiss: mam darmowe konto i wyczerpało się na, chyba, 2 kroku; przepis na hawajską :)

Nasz przewodnik po pizzy hawajskiej przeszedł imponującą ewolucję od prostego przepisu do kompleksowego, wieloaspektowego źródła wiedzy. W trakcie jego tworzenia udało nam się:

Opracować solidny przepis podstawowy z licznymi wariantami
Przedstawić różne
  • Odpowiedz
  • 0
@coiber: Najs :D
Ano, koszt tego prompta jest ogromny, a darmowy Claude też nie jest zbyt szczodry w obdarowywaniu tokenami.

Claude Sonnet 3.5 used around 1 million tokens for just 7 questions
  • Odpowiedz