Chiński model AI DeepSeek na własnym komputerze

29.01.2025, 09:53:57 via Wykop

94

instaluje:

iWe are going to need 768GB (to fit the model) across 24 RAM channels (to get the bandwidth to run it fast enough). That means 24 x 32GB DDR5-RDIMM modules

Dobrze ze nie wymaga tyle pamieci nVram w grafice, bo juz sie martwilem ze nie pojdzie lokalnie.

mk321

29.01.2025, 10:14:10 via Wypiek

31

@albin_kolano możesz uruchamiać na GPU, żeby szybciej generowało odpowiedzi, ale wtedy potrzebujesz dużo VRAM, a karty z nim są drogie. Czyli w praktyce większości na to nie stać.

Dlatego tutaj jest sposób z uruchomieniem na zwykłym CPU i użycie RAM. Generowanie jest wolniejsze, ale dzięki temu że RAM jest znaczenie tańszy, to jest już w zasięgu zwykłych ludzi.

Oczywiście koszt 768 GB RAM to nadal dużo, ale wyobraź sobie, że masz

mk321

29.01.2025, 17:15:03 via Wypiek

30

@PastaZeSzczypiorku

A gdzie włożysz 24 paski ram do kompa domowego.

A gdzie włożysz 32 karty graficzne?

memphiz

29.01.2025, 21:34:55 via Wykop

23

Można tylko po co.
Dziś uruchomiłem deepseek-r1:7b - bo nie mam więcej Vramu.
Generalnie odpowiedzi są mało warte. Nie chce mi się rozpisywać ale w wielkości 7b ledwo idzie się z nim dogadać po polsku.
Dopiero wielkość modelu robi różnicę, czyli sprzęt taki na których większość z nas nie jest w stanie sobie pozwolić

Protectorx

29.01.2025, 21:45:56 via Wykop

20

@memphiz: z każdym modelem 7b jest taki problem. Z 14b już jest znacznie lepiej ale zależy od celu.
Fajnie by było gdyby chinczyki zrobili też hardware. Mam nadzieję, że pokradli trochę patentów i zanim się ktoś oburzy - mnie jako konsumenta nie obchodzi to bo korporacje nie mają empatii.

Mirek007

30.01.2025, 01:08:56 via Wykop

3

@kwanty: Próbowałeś R1 lokalnie/w chmurze, tutaj https://chat.deepseek.com, czy którąś z mocno okrojonych wersji lokalnie?

https://www.pyspur.dev/blog/multi-head-latent-attention-kv-cache-paper-list
Do tego GRPO. CIekawe są też wyniki R1-zero bez żadnego RLHF czy SFT.

Ale są to wszystko rzeczy, na których OpenAI/Anthropic/X/itd. też będą mogli skorzystać.

umadi

30.01.2025, 08:06:47 via Wykop

9

wieczny-student

29.01.2025, 18:08:28 via Wykop

6

To jest model kwantyzowany do FP8. Jak ktoś myśli, że da mu to jakość OpenAI albo zbliżoną to może się zdziwić.

grajkoo

30.01.2025, 06:46:05 via Android

4

Idealnie się składa, akurat mam w kompie 768GB RAM, trochę z nadwyżką więc nie wykorzystywałem ich możliwości ale teraz pod AI będzie jak znalazł. (⌐ ͡■ ͜ʖ ͡■)

lukaszlukaszkk

30.01.2025, 22:10:56 via Wykop

0

Komentarz usunięty przez autora

daniel-doe

30.01.2025, 13:14:43 via Wykop

1

Cały model tylko dobrze zoptymalizowany (skwantyzowany) mozna odpalic na PC z 20GB ramu z mocnym gforce. Jest w linku w powiazanych. Nie wiem dlaczego ktos to minusuje. Ta wersja to złoto dla startupów.(ʘ‿ʘ)

u.....4

konto usunięte 29.01.2025, 23:51:20 via Wykop

1

Da radę to odalić na i5 2.8 GHz, 8gb ddr4 ??

L.....V

konto usunięte 30.01.2025, 02:27:52 via Wykop

0

Da radę to odalić na i5 2.8 GHz, 8gb ddr4 ??

@user984: nie procesor a karta graficzna jest istotna. Na RTX 2060 można już się tym spokojnie bawić.

Mukdaar

30.01.2025, 05:32:48 via Wykop

0

@user984: Oczywiście, że się da. Bierzesz najmniejszą wersję DeepSeek-R1-Distill-Qwen-1.5B i jedziesz.

ApageZ

30.01.2025, 16:29:23 via Wykop

0

Pytanie do znających się na rzeczy: Czy taki stary akcelerator jak nVidia Tesla K80 będzie się nadawał do uruchomienia sobie jakiegoś sensownego LLM-a? To ma 24GB RAM-u (2x 12GB) DDR5 i 2x GK210 (Kepler 2.0). Może ktoś z Was próbował?
Mogę mieć takie karty w dobrej cenie i zastanawiam się, czy warto kupić?

Nawighator

30.01.2025, 21:18:18 via Wykop

1

@ApageZ: szkoda kasy, ilekolwiek bys na nie wydal. stracisz sporo czasu zeby to skonfigurowac (bardzo prawdopodobne ze bedziesz mial problemy z sterownikami) to i osiagi tego beda bardzo slabe, szczegolnie jesli bedziesz probowal uruchomic jakis wiekszy model. jak sam wspomniales jest to 2x12GB wiec jesli model bedzie mial wiecej niz 12GB to troche sie naczekasz bo nie bedzie to dzialalo rownolegle. Poza tym wszystko zalezy w jaki sposob chcesz sie

ApageZ

30.01.2025, 22:20:26 via Wykop

1

szkoda kasy, ilekolwiek bys na nie wydal.

@Nawighator: Na razie nie mam żadnych konkretnych planów. Po prostu jest okazja, aby kupić tanio takie karty i zastanawiałem się, czy dałoby się je wykorzystać do uruchomienia jakiegoś LLM-a lepszego niż te, które byłby w stanie udźwignąć mój PC. Praktycznie nie gram w gry komputerowe, więc zakup współczesnej karty graficznej byłby marnowaniem pieniędzy.
No cóż, wygląda na to, że przyjdzie mi jeszcze zaczekać,

birus

30.01.2025, 11:02:35 via Android

0

Ściągnąłem model i dowiedziałem się o tym przy próbie odpalenia

andrkac

30.01.2025, 09:57:47 via Wykop

0

Kulawa ta instrukcja. ollama odpala model (każdy który obsługuje, chińczyka też) dwoma poleceniami - w tym ściągnięcie samego programu.
Wszystko się ładnie autosetupuje.
A działać może na niemal wszystkim - stary lapek z 2013 (I5) bez GPU też odpalił, choć oczywiście używanie tego z takimi opóźnieniami nie ma żadnego sensu.

jedno polecenie - ściągnięcie programu (na Windows może nawet kliknięciem, nie próbowałem)
kolejne - ściąga i uruchamia model i już, można gadać

Chiński model AI DeepSeek na własnym komputerze - przewodnik

Hity

Sklep nike.com nie respektuje zasad o pokazywaniu najniższej ceny z 30dni

Pijany biznesmen w Darłowie. Sędzia nie zabrała mu nawet prawa jazdy. Umorzenie

Sprawa Sebastiana M.: Rodziny ofiar wypadku nie chcą kontynuować mediacji

Górnicy znów dostaną Karpiowe - miliony w bonusach, gdy spółki toną w stratach

Gdańsk - jest wyrok w sprawie wałka na wynajem 15 owiec za 150 k zł.

Powiązane tagi