Wpis z mikrobloga

Skopiuj link

30.10.2025, 10:30:01

#programowanie #programista15k #sztucznainteligencja #it #chatgpt

Coś dla geekow.

Test-Time Compute Scaling - nowa era LLM-ów, która potencjalnie zmienia sporo.

Zapomnijcie o wyścigu “kto ma większy model”. Właśnie się skończył. OpenAI z o1, DeepSeek z R1, a teraz cała branża idzie w jednym kierunku: test-time compute scaling.

O co w tym chodzi?
Zamiast trenować coraz większe modele (training-time compute), nowoczesne LLM-y dostają czas na “myślenie” podczas inferencji. Model generuje wiele ścieżek rozumowania, weryfikuje je, odrzuca złe, iteruje - jak człowiek rozwiązujący trudny problem. DeepSeek-R1 potrafi “myśleć” przez kilkadziesiąt sekund nad jednym pytaniem, generując dziesiątki tysięcy tokenów wewnętrznego reasoning’u.

Dlaczego to game changer?
1. Skalowanie w dół, wydajność w górę - R1 ma ~600B parametrów, ale bije modele o rzędy większe dzięki test-time compute. Koszt treningu? Ułamek GPT-4.
2. Emergent reasoning - modele same nauczyły się technik jak chain-of-thought czy self-verification. Nie trzeba tego hard-kodować w promptach.
3. Demokratyzacja AI - jeśli wydajność to nie tylko rozmiar modelu, małe laBy mogą konkurować z big tech. DeepSeek (chińska firma) właśnie udowodnił, że można zbudować top-tier model za ~$6M zamiast $100M+.
Techniczne ficzerki:
• RL z verifier rewards - model uczy się nie tylko generować odpowiedzi, ale oceniać ich poprawność
• Grupy-karne za długość - żeby nie halucynował w kółko, dostaje penalty za rozwlekłość
• Long CoT - wewnętrzne łańcuchy rozumowania 10k+ tokenów dla jednego pytania
Co to zmienia w praktyce?
• Matematyka/coding na poziomie konkurencyjnym (AIME 79.8%, Codeforces 96.3 percentile)
• Modele lokalnie hostowalne bijące API close-source
• Inference staje się droższy, ale daje lepsze wyniki niż większy model bez reasoning

Problem: OpenAI patentuje swoje podejście do o1, ale DeepSeek wypuścił R1 jako open source. Hugging Face zalany forkami i eksperymentami. Za chwilę każdy będzie miał swojego “thinking AI” lokalnie.

To fundamentalna zmiana paradygmatu: czas obliczeń ważniejszy niż rozmiaru.

tylkosieturozgladam

30.10.2025, 14:30:58 via iOS

@JamesJoyce używam już od dłuższego czasu lokalnie gpt-oss. Co do test-time computing to już chwilę jest. Taka ostatnia (najnowsza) rewolucja jest powiedziałbym mixture of experts, który przyspiesza inferencje aktywując tylko część neuronów

JamesJoyce

30.10.2025, 15:47:38 via iOS

@tylkosieturozgladam zgoda. Ale pierwsze próby użycia MOE to 2013

tylkosieturozgladam

30.10.2025, 16:13:28 via iOS

@JamesJoyce ciężko mi w to uwierzyć skoro bert jak i transformer od Google powstał dopiero w 2018. Jakieś źródła? Bo bym poczytał

JamesJoyce

30.10.2025, 21:32:52 via iOS

@tylkosieturozgladam The earliest paper that applies MoE to deep learning dates back to 2013,[20] which proposed to use a different gating network at each layer in a deep neural network. Specifically, each gating is a linear-ReLU-linear-softmax network, and each expert is a linear-ReLU network. Since the output from the gating is not sparse, all expert outputs are needed, and no conditional computation is performed

Aktywne Wpisy

Aktywne Znaleziska

Sahara może się zazielenić? Naukowcy przewidują nawet 75 % więcej opadów

Przewozili odpady z Niemiec. Mogą dostać milion złotych kary

Tę drogową awanturę komentowali wszyscy. Teraz zajmie się nią sąd.

W te sumy aż trudno uwierzyć. 10 najbogatszych w rok zyskało 700 mld dolarów

300 000 zł miesięcznie dla lekarza? Ujawniamy prawdziwe zarobki w ochronie zdrow

Popularne tagi