Wpis z mikrobloga

#programowanie #programista15k #sztucznainteligencja #it #chatgpt

Coś dla geekow.

Test-Time Compute Scaling - nowa era LLM-ów, która potencjalnie zmienia sporo.

Zapomnijcie o wyścigu “kto ma większy model”. Właśnie się skończył. OpenAI z o1, DeepSeek z R1, a teraz cała branża idzie w jednym kierunku: test-time compute scaling.

O co w tym chodzi?
Zamiast trenować coraz większe modele (training-time compute), nowoczesne LLM-y dostają czas na “myślenie” podczas inferencji. Model generuje wiele ścieżek rozumowania, weryfikuje je, odrzuca złe, iteruje - jak człowiek rozwiązujący trudny problem. DeepSeek-R1 potrafi “myśleć” przez kilkadziesiąt sekund nad jednym pytaniem, generując dziesiątki tysięcy tokenów wewnętrznego reasoning’u.

Dlaczego to game changer?
1. Skalowanie w dół, wydajność w górę - R1 ma ~600B parametrów, ale bije modele o rzędy większe dzięki test-time compute. Koszt treningu? Ułamek GPT-4.
2. Emergent reasoning - modele same nauczyły się technik jak chain-of-thought czy self-verification. Nie trzeba tego hard-kodować w promptach.
3. Demokratyzacja AI - jeśli wydajność to nie tylko rozmiar modelu, małe laBy mogą konkurować z big tech. DeepSeek (chińska firma) właśnie udowodnił, że można zbudować top-tier model za ~$6M zamiast $100M+.
Techniczne ficzerki:
RL z verifier rewards - model uczy się nie tylko generować odpowiedzi, ale oceniać ich poprawność
Grupy-karne za długość - żeby nie halucynował w kółko, dostaje penalty za rozwlekłość
Long CoT - wewnętrzne łańcuchy rozumowania 10k+ tokenów dla jednego pytania
Co to zmienia w praktyce?
Matematyka/coding na poziomie konkurencyjnym (AIME 79.8%, Codeforces 96.3 percentile)
Modele lokalnie hostowalne bijące API close-source
Inference staje się droższy, ale daje lepsze wyniki niż większy model bez reasoning

Problem: OpenAI patentuje swoje podejście do o1, ale DeepSeek wypuścił R1 jako open source. Hugging Face zalany forkami i eksperymentami. Za chwilę każdy będzie miał swojego “thinking AI” lokalnie.

To fundamentalna zmiana paradygmatu: czas obliczeń ważniejszy niż rozmiaru.
  • 4
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@tylkosieturozgladam The earliest paper that applies MoE to deep learning dates back to 2013,[20] which proposed to use a different gating network at each layer in a deep neural network. Specifically, each gating is a linear-ReLU-linear-softmax network, and each expert is a linear-ReLU network. Since the output from the gating is not sparse, all expert outputs are needed, and no conditional computation is performed
  • Odpowiedz