Aktywne Wpisy

MrGreeny +48

źródło: Zdjęcie z biblioteki
Pobierz
zlowrogitur +199
Modnie ubrany facet to nie rzadkość #niewiemjaktootagowac

źródło: temp_file6168716065516337960
PobierzSkopiuj link
Skopiuj linkźródło: Zdjęcie z biblioteki
Pobierzźródło: temp_file6168716065516337960
PobierzWykop.pl
Najpierw trochę kontekstu: Obecnie trenowanie najlepszych modeli AI jest NIEWYOBRAŻALNIE drogie. OpenAI, Anthropic i inne firmy wydają ponad 100 milionów dolarów tylko na moc obliczeniową. Potrzebują ogromnych centrów danych z tysiącami kart GPU wartych po 40 tysięcy dolarów każda. To jak posiadanie całej elektrowni tylko po to, aby zasilić fabrykę.
DeepSeek właśnie się pojawił i powiedział: „LOL, a co jeśli zrobimy to za 5 milionów dolarów zamiast tego?”. I nie tylko o tym mówili – oni to naprawdę ZROBILI. Ich modele dorównują GPT-4 i Claude'owi lub przewyższają je w wielu zadaniach
Jak? Przemyśleli wszystko od podstaw. Tradycyjne AI jest jak zapisywanie każdej liczby z dokładnością do 32 miejsc po przecinku. DeepSeek stwierdził: „A co, jeśli użyjemy tylko 8? Wciąż będzie wystarczająco dokładne!”. Bum – o 75% mniej pamięci potrzebne.
A potem jest ich system „multi-token”. Normalne AI czyta jak pierwszoklasista: „Kot... siedzi... na...”. DeepSeek czyta całe frazy naraz. Dwa razy szybciej, 90% tej samej dokładności. Przy przetwarzaniu miliardów słów to MA ZNACZENIE.
Rezultaty są oszałamiające:
- Koszt treningu: 100 mln $ → 5 mln $
- Liczba potrzebnych GPU: 100 000 → 2 000
- Koszty API: 95% taniej
- Może działać na gamingowych GPU zamiast sprzętu z centrów danych
„Ale zaraz,” możesz powiedzieć, „musi być jakiś haczyk!”. I tu jest ta niesamowita część – wszystko jest open source. Każdy może sprawdzić ich pracę. Kod jest publiczny. Dokumenty techniczne wyjaśniają wszystko. To nie magia, tylko niezwykle sprytna inżynieria.
Dlaczego to ma znaczenie? Bo łamie model, w którym „tylko wielkie firmy technologiczne mogą działać w AI”. Nie potrzebujesz już centrum danych wartego miliardy dolarów. Wystarczy kilka dobrych GPU.
Dla Nvidii to przerażające. Cały ich model biznesowy opiera się na sprzedaży superdrogich GPU z marżą na poziomie 90%. Jeśli nagle każdy będzie mógł robić AI na zwykłych gamingowych GPU... no cóż, widać, gdzie leży problem.
To klasyczna historia o disruptorach: obecni liderzy optymalizują istniejące procesy, podczas gdy disruptorzy przemyślają fundamentalne podejście. DeepSeek zadał pytanie: „A co, jeśli po prostu zrobimy to mądrzej, zamiast rzucać w to więcej sprzętu?”.
Konsekwencje są ogromne:
- Rozwój AI staje się bardziej dostępny
- Konkurencja rośnie dramatycznie
- „Fosy” dużych firm technologicznych zaczynają wyglądać jak kałuże
- Wymagania sprzętowe (i koszty) gwałtownie spadają
Ostatnia myśl: To wygląda na jeden z tych momentów, do których będziemy wracać jako punkt zwrotny. Jak wtedy, gdy komputery osobiste uczyniły mainframe'y mniej istotnymi, czy kiedy chmurowe obliczenia zmieniły wszystko.
AI zaraz stanie się o wiele bardziej dostępne i znacznie tańsze. Pytanie nie brzmi, czy to zakłóci rynek, ale jak szybko.
#technologia #chatgpt #chiny #nvidia #kartygraficzne #gielda #sztucznainteligencja #ai #informatyka
źródło: GiUo6MTaYAAvgw9
Pobierz@FX_Zus: xD
@Grucholek: To nie jest clue problemu. Tu problemem jest to, że wypuszczono darmową konkurencję dla modeli komercyjnych, i to w taki sposób, że do kolejnej generacji... nie idzie jej usunąć.
To tak, jakby jakiś Pajeet napisał kompatybilnego i równie prostego w obsłudze, darmowego klona Windowsa. Nie linuksa, a pro prostu klona Windowsa. Byłaby inba, nie?
@snorli12: to jest sprawdzona informacja czy wierzymy Chińczykom na słowo?
@snorli12: A nie chodziło o bity aby?
@snorli12: No i LLMy to nie całe "AI". Ogólnie modele uczenia maszynowego od dawna się uruchamiało na bardzo różnych sprzętach. Ale poza tym ciekawy tekst!
To że on jest open source nic nie daje, bo jest mocno ograniczona ilość specjalistów w IT którzy ten kod naprawdę zrozumieją i wydadzą jakąś opinie.
Coś jak z wszystkim programami open source niby każdy może wejść w kod i sprawdzić ale i tak mało kto się zna na tym, jak ktoś jest "zwykłym" programistą to w kodzie komunikatora nie znajdzie dziur bezpieczeństwa