Wpis z mikrobloga

@JamesJoyce: W jaki sposób model z 685 miliardami parametrów działa na iPhonie? Ciężko mi w to uwierzyć. Istnieją sposoby kwantyzacji, które zmniejszają rozmiar wag modelu, ale często drastycznie pogarszają jego wydajność. DeepSeek nie przewyższa Claude 3.5 Sonnet w teście SWE-bench (Real-World GitHub Issues, dość istotny test z kategorii Code), no i to tylko sam model, który nie ma tak dobrego wsparcia dla function calling. Prawdziwy benchmark modelu zaczyna się poprzez
  • Odpowiedz
@JamesJoyce:

DeepSeek R1 distilled to Qwen 1.5B

https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B/blob/main/config.json

1.5 miliarda parametrów w formacie bfloat16 zajmuje 3.55 GB, w tym linku on tam dokonał kwantyzacji do 4 bitów, czyli to będzie jakieś 900 MB. Inne modele też można uruchomić, ale te wersje modeli ~1 miliardów parametrów działają tragicznie już same w sobie, a po kwantyzacji, to jest kaplica. Sztuka dla sztuki.
  • Odpowiedz
@Defined tak, wiem. Lamy także w taki sposób działają na fonie. Może niejednoznacznie się wyraziłem. Wersja największa jest lepsza od topowych modeli. Wersja destylowana jest jak destylowana :)
  • Odpowiedz