iWe are going to need 768GB (to fit the model) across 24 RAM channels (to get the bandwidth to run it fast enough). That means 24 x 32GB DDR5-RDIMM modules
Dobrze ze nie wymaga tyle pamieci nVram w grafice, bo juz sie martwilem ze nie pojdzie lokalnie.
@albin_kolano możesz uruchamiać na GPU, żeby szybciej generowało odpowiedzi, ale wtedy potrzebujesz dużo VRAM, a karty z nim są drogie. Czyli w praktyce większości na to nie stać.
Dlatego tutaj jest sposób z uruchomieniem na zwykłym CPU i użycie RAM. Generowanie jest wolniejsze, ale dzięki temu że RAM jest znaczenie tańszy, to jest już w zasięgu zwykłych ludzi.
Oczywiście koszt 768 GB RAM to nadal dużo, ale wyobraź sobie, że masz
Można tylko po co. Dziś uruchomiłem deepseek-r1:7b - bo nie mam więcej Vramu. Generalnie odpowiedzi są mało warte. Nie chce mi się rozpisywać ale w wielkości 7b ledwo idzie się z nim dogadać po polsku. Dopiero wielkość modelu robi różnicę, czyli sprzęt taki na których większość z nas nie jest w stanie sobie pozwolić
@memphiz: z każdym modelem 7b jest taki problem. Z 14b już jest znacznie lepiej ale zależy od celu. Fajnie by było gdyby chinczyki zrobili też hardware. Mam nadzieję, że pokradli trochę patentów i zanim się ktoś oburzy - mnie jako konsumenta nie obchodzi to bo korporacje nie mają empatii.
Idealnie się składa, akurat mam w kompie 768GB RAM, trochę z nadwyżką więc nie wykorzystywałem ich możliwości ale teraz pod AI będzie jak znalazł. (⌐͡■͜ʖ͡■)
Cały model tylko dobrze zoptymalizowany (skwantyzowany) mozna odpalic na PC z 20GB ramu z mocnym gforce. Jest w linku w powiazanych. Nie wiem dlaczego ktos to minusuje. Ta wersja to złoto dla startupów.(ʘ‿ʘ)
Kulawa ta instrukcja. ollama odpala model (każdy który obsługuje, chińczyka też) dwoma poleceniami - w tym ściągnięcie samego programu. Wszystko się ładnie autosetupuje. A działać może na niemal wszystkim - stary lapek z 2013 (I5) bez GPU też odpalił, choć oczywiście używanie tego z takimi opóźnieniami nie ma żadnego sensu.
jedno polecenie - ściągnięcie programu (na Windows może nawet kliknięciem, nie próbowałem) kolejne - ściąga i uruchamia model i już, można gadać
Pytanie do znających się na rzeczy: Czy taki stary akcelerator jak nVidia Tesla K80 będzie się nadawał do uruchomienia sobie jakiegoś sensownego LLM-a? To ma 24GB RAM-u (2x 12GB) DDR5 i 2x GK210 (Kepler 2.0). Może ktoś z Was próbował? Mogę mieć takie karty w dobrej cenie i zastanawiam się, czy warto kupić?
@ApageZ: szkoda kasy, ilekolwiek bys na nie wydal. stracisz sporo czasu zeby to skonfigurowac (bardzo prawdopodobne ze bedziesz mial problemy z sterownikami) to i osiagi tego beda bardzo slabe, szczegolnie jesli bedziesz probowal uruchomic jakis wiekszy model. jak sam wspomniales jest to 2x12GB wiec jesli model bedzie mial wiecej niz 12GB to troche sie naczekasz bo nie bedzie to dzialalo rownolegle. Poza tym wszystko zalezy w jaki sposob chcesz sie
@Nawighator: Na razie nie mam żadnych konkretnych planów. Po prostu jest okazja, aby kupić tanio takie karty i zastanawiałem się, czy dałoby się je wykorzystać do uruchomienia jakiegoś LLM-a lepszego niż te, które byłby w stanie udźwignąć mój PC. Praktycznie nie gram w gry komputerowe, więc zakup współczesnej karty graficznej byłby marnowaniem pieniędzy. No cóż, wygląda na to, że przyjdzie mi jeszcze zaczekać,
Komentarze (102)
najlepsze
Dobrze ze nie wymaga tyle pamieci nVram w grafice, bo juz sie martwilem ze nie pojdzie lokalnie.
Dlatego tutaj jest sposób z uruchomieniem na zwykłym CPU i użycie RAM. Generowanie jest wolniejsze, ale dzięki temu że RAM jest znaczenie tańszy, to jest już w zasięgu zwykłych ludzi.
Oczywiście koszt 768 GB RAM to nadal dużo, ale wyobraź sobie, że masz
A gdzie włożysz 32 karty graficzne?
Dziś uruchomiłem deepseek-r1:7b - bo nie mam więcej Vramu.
Generalnie odpowiedzi są mało warte. Nie chce mi się rozpisywać ale w wielkości 7b ledwo idzie się z nim dogadać po polsku.
Dopiero wielkość modelu robi różnicę, czyli sprzęt taki na których większość z nas nie jest w stanie sobie pozwolić
Fajnie by było gdyby chinczyki zrobili też hardware. Mam nadzieję, że pokradli trochę patentów i zanim się ktoś oburzy - mnie jako konsumenta nie obchodzi to bo korporacje nie mają empatii.
https://www.pyspur.dev/blog/multi-head-latent-attention-kv-cache-paper-list
Do tego GRPO. CIekawe są też wyniki R1-zero bez żadnego RLHF czy SFT.
Ale są to wszystko rzeczy, na których OpenAI/Anthropic/X/itd. też będą mogli skorzystać.
źródło: nie-chce
PobierzKomentarz usunięty przez autora
Wszystko się ładnie autosetupuje.
A działać może na niemal wszystkim - stary lapek z 2013 (I5) bez GPU też odpalił, choć oczywiście używanie tego z takimi opóźnieniami nie ma żadnego sensu.
jedno polecenie - ściągnięcie programu (na Windows może nawet kliknięciem, nie próbowałem)
kolejne - ściąga i uruchamia model i już, można gadać
@user984: nie procesor a karta graficzna jest istotna. Na RTX 2060 można już się tym spokojnie bawić.
Mogę mieć takie karty w dobrej cenie i zastanawiam się, czy warto kupić?
@Nawighator: Na razie nie mam żadnych konkretnych planów. Po prostu jest okazja, aby kupić tanio takie karty i zastanawiałem się, czy dałoby się je wykorzystać do uruchomienia jakiegoś LLM-a lepszego niż te, które byłby w stanie udźwignąć mój PC. Praktycznie nie gram w gry komputerowe, więc zakup współczesnej karty graficznej byłby marnowaniem pieniędzy.
No cóż, wygląda na to, że przyjdzie mi jeszcze zaczekać,