@makrofag74: IMO:
Ale wniosek z tego jest taki:
- Albo obydwa testy są do kitu, i nie mierzą poprawnie halucynowania modeli AI, w sensie - nie pokazują, które modele najmniej halucynują.
- Albo tylko jeden z tych testów jest do kitu.

Różne wyniki na tych samych modelach AI nie mogą być poprawne, w sensie wskazujące poprawnie - które modele najmniej halucynują.
  • Odpowiedz
Nie mam pojęcia gdzie OP robotę dostał, ale po wrzuceniu Claude na bazkę z wrażliwymi danymi, i to jeszcze produkcyjną, pozostaje chyba tylko mieć nadzieję że to organ państwowy dla sąsiedniego województwa xddd

BiauekRemover - Nie mam pojęcia gdzie OP robotę dostał, ale po wrzuceniu Claude na ba...

źródło: 1000009216

Pobierz
  • 9
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@BiauekRemover: to jest ogólnie problem z tą technologią. Ona halucynuje i jest niedeterministyczna. W 90% może działać dobrze w 10% zachowa się inaczej i coś się złego stanie. Jak ktoś używa za dużo agentów to zaczyna im ufać, zaufanie powoduje, że coraz to kolejne uprawnienia są im przyznawane i coraz słabiej się ich sprawdza. Ludzka psychologia działa przeciwko nam bo zaczyna się antropomorfizacja i nawet nie przychodzi do głowy, że
  • Odpowiedz
@tubkas12: @some_ONE: czyli innymi słowy ktoś koncertowo w-----ł podstawowe BHP, z własnej woli i w całości puścił dane klientów na jakieś bliżej nieokreślone serwery hen za lasami, a potem mimo istnienia gotowego backupu cały dzień zeszło mu na przywracaniu tego do stanu używalności. Nie wiem, może .bckp kurierem wiózł w zipie i czekał na doręczenie xD

A na koniec, zamiast po prostu siedzieć cicho i liczyć, że nie będzie
  • Odpowiedz
@Beekeeper: windows 11 używam lm studio, 20t/s. Co do sprzętu to na razie czekam aż spadnie bo ceny powalone, jakby ceny były normalne to bym celował w jakieś 2 rtx z 16gb albo może jeden 4090 i jakby ram był w cenach w jakich kupowałem to z 256gb bym brał :P
  • Odpowiedz
#affinity #grafikakomputerowa #llm #sztucznainteligencja
Ciekawa nowa funkcja w wersji 3.2 Affinity – automatyzacja AI z Claude’em
Zautomatyzuj powtarzalne zadania w Affinity, wydając instrukcje w języku naturalnym asystentowi AI.
Affinity wykorzystuje protokół Model Context Protocol (MCP) — otwarty standard, który umożliwia asystentom AI bezpośrednią komunikację z aplikacjami — w celu odbierania instrukcji od asystenta i wykonywania zadań na dokumentach.
Serwer MCP firmy Affinity działa lokalnie
makrofag74 - #affinity #grafikakomputerowa #llm #sztucznainteligencja
Ciekawa nowa fu...

źródło: interesting-new-feature-in-v3-2-ai-automation-with-claude-v0-9z2fogn39lvg1

Pobierz
  • 9
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Nieźle wyszło. Jechałeś na domyślnych ustawieniach czy zmieniałeś jakieś ustawienia?

Jak śmiech dodać? [śmiech] ?


@makrofag74:
Wspomogłem się Gemini w promptowaniu. Dałem mu taki
Arkass - >Nieźle wyszło. Jechałeś na domyślnych ustawieniach czy zmieniałeś jakieś us...

źródło: image

Pobierz
  • Odpowiedz
Mam wrażenie, że pomimo płacenia za wersje Pro to jakoś ci agenci coraz wolniej mi działają w tym GitHub Copilot lub Claude Code. Chyba ta infrastruktura im nie wyrabia. Agenci coraz bardziej grzebią mi po projekcie, przeglądają itd, a nie widzę jakiejś poprawy w ich odpowiedzi. Jak to u was wygląda?

#programowanie #programista15k #ai #llm #copilot #github #claude
  • 6
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@FedoraTyrone: Ja już nie mam siły do nich. Zmyślają na potęgę, robią dziwne wrzutki, ruszają pliki których nie powinny. U mnie w 90% kończy sie na tym, że usuwam zmiany i ograniczam użycie AI do bardzo małych kroczków, dosłownie pojedyncze funkcje. Szczerze nie chce wiedzieć jaki syf w środku mają aplikacje, które w 90-100% pisze AI.
  • Odpowiedz
@look997: OpenAI i Anthropic to obecnie jedne z najmniej transparentnych firm tworzących LLM-y. Zero otwartości, pełno ograniczeń i manipulacji - dokładnie jak w linku, który podałeś. Szczerze? Coraz bardziej wolę chińskie modele, bo przynajmniej są open‑source i nie bawią się w takie zagrywki.
Z amerykańskich firm tylko Google z Gemmą trzyma jeszcze jakiś poziom otwartości.
  • Odpowiedz
Bawię się ostatnio llm odpalając je na swoim główynm kompie i działać to działa akceptowalnie do prostego czatowania, ale chciałbym się pobawić bardziej poważnie z lokalnym agentem i programowaniem. Jakie jest aktualne minimum sprzętowe aby móc odpalać z sensowną prędkością jakieś lokalne modele typu qwen coder.
Chciałbym sobie postawić sensownego lokalnego agenta, ale na razie widzę, że to minimum 10-15k w sprzęt aktualnie, a to nieco sporo jakna sprzęt głównie do zabawy
  • 16
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

via Wykop
  • 1
@Kot_nie_pies: Jestem typem człłowieka co woli przepłacić tysiące za sprzęt, poświęcić własny czas i zrobić coś gorzej i się nauczyć niż zapłacić połowę mniej za zrobienie tego lepiej :). Abonamenty mnie odrzucają, a słanie danych do chmury mnie nie bawi.
  • Odpowiedz
Mirunie deanonimizuje się. Zrobiłem poprawny i zlozony newsletter. Pierwszy post:

Kilka tygodni temu kolejna runda wyników SOTA. Nagłówki przewidywalne. Komentarze jeszcze bardziej.

Nie piszę o tym, który model wygrał. Piszę o tym, dlaczego benchmark jako narzędzie ewaluacji jest strukturalnie zepsuty.

MMLU
  • 6
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@makrofag74: większość tych stron nie kuma, że teraz modele są MoE i nie muszą się w pełni mieścić w vram. Przykładowo ta Gemma4 26b-a4b ma 26B parametrów łącznie, ale aktywne są tylko 4B. Jest opcja w LmStudio o nazwie 'Number of layers for which to force MoE layers into CPU' i tym sposobem część leci na CPU. Ostatecznie Na Rtx3060 12Gb ta Gemma lata >30tok/s (wersja quant Q4)
  • Odpowiedz