Test-Time Compute Scaling - nowa era LLM-ów, która potencjalnie zmienia sporo.
Zapomnijcie o wyścigu “kto ma większy model”. Właśnie się skończył. OpenAI z o1, DeepSeek z R1, a teraz cała branża idzie w jednym kierunku: test-time compute scaling.
O co w tym chodzi? Zamiast trenować coraz większe modele (training-time compute), nowoczesne LLM-y dostają czas na “myślenie” podczas inferencji. Model generuje wiele ścieżek rozumowania, weryfikuje je, odrzuca złe, iteruje - jak człowiek rozwiązujący trudny problem. DeepSeek-R1 potrafi “myśleć” przez kilkadziesiąt sekund nad jednym pytaniem, generując dziesiątki tysięcy tokenów wewnętrznego reasoning’u.
Dlaczego to game changer? 1. Skalowanie w dół, wydajność w górę - R1 ma ~600B parametrów, ale bije modele o rzędy większe dzięki test-time compute. Koszt treningu? Ułamek GPT-4. 2. Emergent reasoning - modele same nauczyły się technik jak chain-of-thought czy self-verification. Nie trzeba tego hard-kodować w promptach. 3. Demokratyzacja AI - jeśli wydajność to nie tylko rozmiar modelu, małe laBy mogą konkurować z big tech. DeepSeek (chińska firma) właśnie udowodnił, że można zbudować top-tier model za ~$6M zamiast $100M+. Techniczne ficzerki: • RL z verifier rewards - model uczy się nie tylko generować odpowiedzi, ale oceniać ich poprawność • Grupy-karne za długość - żeby nie halucynował w kółko, dostaje penalty za rozwlekłość • Long CoT - wewnętrzne łańcuchy rozumowania 10k+ tokenów dla jednego pytania Co to zmienia w praktyce? • Matematyka/coding na poziomie konkurencyjnym (AIME 79.8%, Codeforces 96.3 percentile) • Modele lokalnie hostowalne bijące API close-source • Inference staje się droższy, ale daje lepsze wyniki niż większy model bez reasoning
Problem: OpenAI patentuje swoje podejście do o1, ale DeepSeek wypuścił R1 jako open source. Hugging Face zalany forkami i eksperymentami. Za chwilę każdy będzie miał swojego “thinking AI” lokalnie.
To fundamentalna zmiana paradygmatu: czas obliczeń ważniejszy niż rozmiaru.
@JamesJoyce używam już od dłuższego czasu lokalnie gpt-oss. Co do test-time computing to już chwilę jest. Taka ostatnia (najnowsza) rewolucja jest powiedziałbym mixture of experts, który przyspiesza inferencje aktywując tylko część neuronów
@tylkosieturozgladam The earliest paper that applies MoE to deep learning dates back to 2013,[20] which proposed to use a different gating network at each layer in a deep neural network. Specifically, each gating is a linear-ReLU-linear-softmax network, and each expert is a linear-ReLU network. Since the output from the gating is not sparse, all expert outputs are needed, and no conditional computation is performed
Coś dla geekow.
Test-Time Compute Scaling - nowa era LLM-ów, która potencjalnie zmienia sporo.
Zapomnijcie o wyścigu “kto ma większy model”. Właśnie się skończył. OpenAI z o1, DeepSeek z R1, a teraz cała branża idzie w jednym kierunku: test-time compute scaling.
O co w tym chodzi?
Zamiast trenować coraz większe modele (training-time compute), nowoczesne LLM-y dostają czas na “myślenie” podczas inferencji. Model generuje wiele ścieżek rozumowania, weryfikuje je, odrzuca złe, iteruje - jak człowiek rozwiązujący trudny problem. DeepSeek-R1 potrafi “myśleć” przez kilkadziesiąt sekund nad jednym pytaniem, generując dziesiątki tysięcy tokenów wewnętrznego reasoning’u.
Dlaczego to game changer?
1. Skalowanie w dół, wydajność w górę - R1 ma ~600B parametrów, ale bije modele o rzędy większe dzięki test-time compute. Koszt treningu? Ułamek GPT-4.
2. Emergent reasoning - modele same nauczyły się technik jak chain-of-thought czy self-verification. Nie trzeba tego hard-kodować w promptach.
3. Demokratyzacja AI - jeśli wydajność to nie tylko rozmiar modelu, małe laBy mogą konkurować z big tech. DeepSeek (chińska firma) właśnie udowodnił, że można zbudować top-tier model za ~$6M zamiast $100M+.
Techniczne ficzerki:
• RL z verifier rewards - model uczy się nie tylko generować odpowiedzi, ale oceniać ich poprawność
• Grupy-karne za długość - żeby nie halucynował w kółko, dostaje penalty za rozwlekłość
• Long CoT - wewnętrzne łańcuchy rozumowania 10k+ tokenów dla jednego pytania
Co to zmienia w praktyce?
• Matematyka/coding na poziomie konkurencyjnym (AIME 79.8%, Codeforces 96.3 percentile)
• Modele lokalnie hostowalne bijące API close-source
• Inference staje się droższy, ale daje lepsze wyniki niż większy model bez reasoning
Problem: OpenAI patentuje swoje podejście do o1, ale DeepSeek wypuścił R1 jako open source. Hugging Face zalany forkami i eksperymentami. Za chwilę każdy będzie miał swojego “thinking AI” lokalnie.
To fundamentalna zmiana paradygmatu: czas obliczeń ważniejszy niż rozmiaru.