Wpis z mikrobloga

O co chodzi z #deepseek ? Już tłumaczę!

Najpierw trochę kontekstu: Obecnie trenowanie najlepszych modeli AI jest NIEWYOBRAŻALNIE drogie. OpenAI, Anthropic i inne firmy wydają ponad 100 milionów dolarów tylko na moc obliczeniową. Potrzebują ogromnych centrów danych z tysiącami kart GPU wartych po 40 tysięcy dolarów każda. To jak posiadanie całej elektrowni tylko po to, aby zasilić fabrykę.
DeepSeek właśnie się pojawił i powiedział: „LOL, a co jeśli zrobimy to za 5 milionów dolarów zamiast tego?”. I nie tylko o tym mówili – oni to naprawdę ZROBILI. Ich modele dorównują GPT-4 i Claude'owi lub przewyższają je w wielu zadaniach
Jak? Przemyśleli wszystko od podstaw. Tradycyjne AI jest jak zapisywanie każdej liczby z dokładnością do 32 miejsc po przecinku. DeepSeek stwierdził: „A co, jeśli użyjemy tylko 8? Wciąż będzie wystarczająco dokładne!”. Bum – o 75% mniej pamięci potrzebne.
A potem jest ich system „multi-token”. Normalne AI czyta jak pierwszoklasista: „Kot... siedzi... na...”. DeepSeek czyta całe frazy naraz. Dwa razy szybciej, 90% tej samej dokładności. Przy przetwarzaniu miliardów słów to MA ZNACZENIE.
Rezultaty są oszałamiające:
- Koszt treningu: 100 mln $ → 5 mln $
- Liczba potrzebnych GPU: 100 000 → 2 000
- Koszty API: 95% taniej
- Może działać na gamingowych GPU zamiast sprzętu z centrów danych
„Ale zaraz,” możesz powiedzieć, „musi być jakiś haczyk!”. I tu jest ta niesamowita część – wszystko jest open source. Każdy może sprawdzić ich pracę. Kod jest publiczny. Dokumenty techniczne wyjaśniają wszystko. To nie magia, tylko niezwykle sprytna inżynieria.
Dlaczego to ma znaczenie? Bo łamie model, w którym „tylko wielkie firmy technologiczne mogą działać w AI”. Nie potrzebujesz już centrum danych wartego miliardy dolarów. Wystarczy kilka dobrych GPU.
Dla Nvidii to przerażające. Cały ich model biznesowy opiera się na sprzedaży superdrogich GPU z marżą na poziomie 90%. Jeśli nagle każdy będzie mógł robić AI na zwykłych gamingowych GPU... no cóż, widać, gdzie leży problem.
To klasyczna historia o disruptorach: obecni liderzy optymalizują istniejące procesy, podczas gdy disruptorzy przemyślają fundamentalne podejście. DeepSeek zadał pytanie: „A co, jeśli po prostu zrobimy to mądrzej, zamiast rzucać w to więcej sprzętu?”.
Konsekwencje są ogromne:
- Rozwój AI staje się bardziej dostępny
- Konkurencja rośnie dramatycznie
- „Fosy” dużych firm technologicznych zaczynają wyglądać jak kałuże
- Wymagania sprzętowe (i koszty) gwałtownie spadają

Ostatnia myśl: To wygląda na jeden z tych momentów, do których będziemy wracać jako punkt zwrotny. Jak wtedy, gdy komputery osobiste uczyniły mainframe'y mniej istotnymi, czy kiedy chmurowe obliczenia zmieniły wszystko.
AI zaraz stanie się o wiele bardziej dostępne i znacznie tańsze. Pytanie nie brzmi, czy to zakłóci rynek, ale jak szybko.

#technologia #chatgpt #chiny #nvidia #kartygraficzne #gielda #sztucznainteligencja #ai #informatyka
snorli12 - O co chodzi z #deepseek ? Już tłumaczę! 

Najpierw trochę kontekstu: Obecn...

źródło: GiUo6MTaYAAvgw9

Pobierz
  • 212
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@snorli12: Szacuneczek ze chciało ci się pisać :D nudzi mnie tłumaczenie ze nie chodzi czy jest lepsze czy gorsze od open ai.CIekawy ten rok będzie ... walka w AI dopiero sie zaczyna obecnie
  • Odpowiedz
@snorli12: Pytanie przyziemne, czy to zakłóci rynek konsumencki kart graficznych na skale krypto czy nie, szczególnie kiedy na dniach wychodzą nowe RTX.
  • Odpowiedz
@snorli12: mocy obliczeniowej nie oszukasz... wyobraź sobie jak w USA zastosują techniki użyte przez Chinoli... w takim wypadku jeśli Scalin Law się utrzyma to AGI albo coś znacznie potężniejszego niż GPT jest na wyciągnięcie ręki.
  • Odpowiedz
@kidddddi: W kontekście gamingu nie ma to kompletnie żadnego znaczenia. Modele są trenowane na kartach graficznych pokroju NVIDIA H100. Karty typu 5090 wystarczą do odpalenia lokalnie jakiegoś lepszego modelu jednak nie ma dla nich zastosowania w większych datacenter.
  • Odpowiedz
@Frwrd05: Sobie możesz być zdania projekt jest open source.Gdyby to miał być scam to już byś to wiedział.Zbanować też tego nie zbanują jak hujaweja bo jest open source
  • Odpowiedz
Nie zdziwiłbym się jeżeli informacje o koszcie treningu byłyby jednym wielkim kłamstwem.


@Grucholek: To nie jest clue problemu. Tu problemem jest to, że wypuszczono darmową konkurencję dla modeli komercyjnych, i to w taki sposób, że do kolejnej generacji... nie idzie jej usunąć.

To tak, jakby jakiś Pajeet napisał kompatybilnego i równie prostego w obsłudze, darmowego klona Windowsa. Nie linuksa, a pro prostu klona Windowsa. Byłaby inba, nie?
  • Odpowiedz
Koszt treningu: 100 mln $ → 5 mln $

- Liczba potrzebnych GPU: 100 000 → 2 000

- Koszty API: 95% taniej

- Może działać na gamingowych GPU zamiast sprzętu z centrów danych


@snorli12: to jest sprawdzona informacja czy wierzymy Chińczykom na słowo?
  • Odpowiedz
Tradycyjne AI jest jak zapisywanie każdej liczby z dokładnością do 32 miejsc po przecinku. DeepSeek stwierdził: „A co, jeśli użyjemy tylko 8?


@snorli12: A nie chodziło o bity aby?

>AI zaraz stanie się o wiele bardziej dostępne i znacznie tańsze


@snorli12: No i LLMy to nie całe "AI". Ogólnie modele uczenia maszynowego od dawna się uruchamiało na bardzo różnych sprzętach. Ale poza tym ciekawy tekst!
  • Odpowiedz
@snorli12: i co, z "kodu" sobie sprawdzę za ile wytrenowali model? Gdzie zbiory danych na których trenowali? Gdzie jest w ogóle kod którego użyli do treningu? A no tak, nie ma, są tylko open weights a reszty po prostu zapomnieli opublikować ale na pewno istnieją i są takie jak mówią, przecież Chińska Partia Komunistyczna by nie kłamała
  • Odpowiedz
@snorli12 czy są już jakieś analizy tego kodu?
To że on jest open source nic nie daje, bo jest mocno ograniczona ilość specjalistów w IT którzy ten kod naprawdę zrozumieją i wydadzą jakąś opinie.

Coś jak z wszystkim programami open source niby każdy może wejść w kod i sprawdzić ale i tak mało kto się zna na tym, jak ktoś jest "zwykłym" programistą to w kodzie komunikatora nie znajdzie dziur bezpieczeństwa
  • Odpowiedz