Wpis z mikrobloga

@makrofag74: większość tych stron nie kuma, że teraz modele są MoE i nie muszą się w pełni mieścić w vram. Przykładowo ta Gemma4 26b-a4b ma 26B parametrów łącznie, ale aktywne są tylko 4B. Jest opcja w LmStudio o nazwie 'Number of layers for which to force MoE layers into CPU' i tym sposobem część leci na CPU. Ostatecznie Na Rtx3060 12Gb ta Gemma lata >30tok/s (wersja quant Q4)
  • Odpowiedz