Wpis z mikrobloga

Skopiuj link

#programista15k #programowanie #sztucznainteligencja #ai

Coś, co było niemal jest pewne teraz jest pewne. OpenAI opublikowało artykuł udowadniając, że kazdy LLM zawsze będzie coś halucynowal. Nie czasem. Dopiero przy następnej aktualizacji. Zawsze. Udowodnili to matematyką.

Nawet przy idealnych danych treningowych i nieograniczonej mocy obliczeniowej, modele AI nadal z przekonaniem mówią rzeczy, które są całkowicie fałszywe. To nie jest błąd, nad którym pracują. Jest to wpisane w to, jak te systemy działają na fundamentalnym poziomie.

A ich własne wyniki są brutalne. Czasem aż połowa tego, co mówią ich modele, można by wymyślić. "Mądrzejsze" modele faktycznie coraz gorzej radzą sobie z mówieniem prawdy.

Oto dlaczego tego nie da się naprawić. Modele językowe działają poprzez przewidywanie następnego słowa na podstawie prawdopodobieństwa. Gdy trafiają na coś niepewnego, nie zatrzymują się. Nie oznaczają tego. Zgadują. I zgadują z całkowitą pewnością, bo dokładnie do tego zostaly przeszkolone.

https://arxiv.org/pdf/2509.04664

uefaman

14 godz. i 49 min temu via Wypiek

@JamesJoyce czyli AI będzie coraz głupsze?

Hmrogrz

13 godz. i 46 min temu via Wykop

@JamesJoyce: dlatego wykorzystuje się dodatkowe modele żeby sprawdzały wypowiedź pierwszego modelu przed wysłaniem odpowiedzi do użytkownika.

WaveCreator

13 godz. i 23 min temu via Wykop

@JamesJoyce: Dlatego z niecierpliwością czekam aż większość źródeł, na których uczone są LLMy, będzie pochodziła z LLM'ów ( ͡° ͜ʖ ͡°)

Zatrute studnie itp.

Natomiast nadal jestem bardzo zadowolony z tego jak LLM ułatwia np. zamianę nieformalnego opisu problemu na oficjalne zgłoszenie do urzędu, czy jak szybko potrafi dokonać syntezy czy porównania kilku dokumentów. Oczywiście wszystko działa w połączeniu z zasadą "ufam, więc sprawdzam", ale nadal

JamesJoyce

12 godz. i 45 min temu via iOS

@Hmrogrz: Ale to nie naprawia problemu

toolonge

12 godz. i 19 min temu via Wykop

@JamesJoyce: konfrontuje problem i jest kilkuetapowy weryfikowane niezależnie więc go znacząco i wystarczająco zmniejsza

Peptalk

12 godz. i 16 min temu via Wykop

@JamesJoyce: it is not a bug.. it’s the feature

JamesJoyce

11 godz. i 5 min temu via iOS

@toolonge: no właśnie nie.

toolonge

10 godz. i 44 min temu via Wykop

@JamesJoyce: NIE!

JamesJoyce

10 godz. i 11 min temu via iOS

@toolonge: a jesteś w stanie uzasadnić swoją tezę?

lisek_cytrusek

8 godz. i 54 min temu via Wykop

@JamesJoyce: a ludzie tak też nie robią? Jeśli muszą podać odpowiedź na temat na którym się nie znają lub mają luki w wiedzy to też dopowiadają rzeczy pasujący pod kontekst i swoją opinię. A po za tym chyba każdy kto pracuje z modelami dokładnie wie jak działają i jakie to ma swoje konsekwencje i że trzeba sprawdzać weryfikować i jeszcze raz sprawdzać :)

JamesJoyce

8 godz. i 37 min temu via iOS

@lisek_cytrusek: Ale nie ma możliwości weryfikacji wszystkich halucynacji. Strategia llm weryfikuje llm prowadzi do wzrostu nie zmniejszenia halucynacji. Poza tym jak masz petabajty tekstu z 20 różnych kontekstów to jak zwalidujesz tam halucynacje? W tej chwili sota to dopisywanie dowodów matematycznych na takiej zasadzie, jakbyś miał prologa który weryfikuje Pythona

tubkas12

7 godz. i 49 min temu via Wykop

@JamesJoyce: w przypadku programowania, wystarczyłoby żeby ludzie pisali albo weryfikowali testy. W przypadku wiedzy tekstowej "chołota" będzie używać internetu a "elita" prac naukowych i książek z weryfikowalnych źródeł - co już jest rzeczywistością.

JamesJoyce

7 godz. i 41 min temu via Wykop

@tubkas12: Ale o czym Ty mowisz? Jakie testy? Jak masz 7 roznych serwisow prawniczych, dokumenty, wyjatki, wiedze wewnetrzna modelu i luki w wiedzy biznesowej, jak w projekcie, ktory teraz mam, to jakie testy dokladnie przeprowadzisz? Przeciez to nie regresja logistyczna. Nawet nie wiesz co masz sprawdzac. Sprawa wyglada tak: sa llmy, ktore dzialaja i takie ktore sa problematyczne. Sklada sie na to wiele zmiennych. I teraz jesli jakas banka peknie

tubkas12

7 godz. i 37 min temu via Wykop

Nawet nie wiesz co masz sprawdzac.

@JamesJoyce: No to tu masz problem.

tubkas12

7 godz. i 28 min temu via Wykop

@JamesJoyce: Ogólnie to co piszesz to jakaś pajacerka - masz system którego wyników nie jesteś wstanie zweryfikować i ktoś za takie coś płaci? To ewidentnie bańka xd

JamesJoyce

7 godz. i 27 min temu via Wykop

@tubkas12: No tak, wlasnie o to chodzi. Mamy metryki, mamy walidacje, mamy testy i co? W pismie urzedowym widnieje informacja, ze Lech Kaczynski jest bratem Lecha Walesy. Skad model o tym wie? Ano jest black boxem. Moze podac Ci wyjasnienie, ale go nie zrozumiesz. Bo nie jestes w stanie.

JamesJoyce

7 godz. i 21 min temu via Wykop

@tubkas12: Nie napisalem tego. Napisalem, ze sa przypadki latwe i trudne. Latwe lub mozliwe do zrobienia i zweryfikowania to ok 70% projektow. Reszta to banka.

tubkas12

7 godz. i 19 min temu via Wykop

@JamesJoyce:

Latwe lub mozliwe do zrobienia i zweryfikowania to ok 70% projektow. Reszta to banka.

Tutaj się zgadzam

zeszyt-w-kratke

5 godz. i 52 min temu via Wykop

a ludzie tak też nie robią?

@lisek_cytrusek: nie, ludzie tak nie robią przecież. Jak pójdziesz ulicą i zapytasz losowego typa ile jest 15643 * 34312 i że prosisz o dokładny wynik to czy każdy będzie podawał jakąś losową liczbę próbując trafić jak najbliżej wyniku czy raczej 99% ludzi odpowie "nie wiem nie mam kalkualtora" lub "nie potrafię policzyć tego w głowie". Obecnie LLM nie potrafi powiedzieć że czegoś nie wie

JamesJoyce

3 godz. i 4 min temu via Wykop

@lisek_cytrusek: Nie. Polecam zaglebic sie w zagadnienie https://en.wikipedia.org/wiki/Symbol_grounding_problem

W kontekście liczenia (arytmetyki) symbol grounding problem sprowadza się do pytania: czy system operujący na cyfrach np. „2 + 2 = 4" naprawdę rozumie co to znaczy „dwa", czy tylko bezmyślnie przetwarza kształty znaków według reguł? Człowiek gruntuje symbol „2" w doświadczeniu: dwa jabłka, dwa kroki, dwa palce. System formalny (kalkulator, LLM) wykonuje poprawne obliczenia, ale cyfry są dla niego tokenami ich

Aktywne Wpisy

Aktywne Znaleziska

W obronie rodziny! Kto chce zniszczyć Piotra Zychowicza i jego mamę?

Gminy liczą straty po wprowadzeniu systemu kaucyjnego. Ministerstwo odpowiada

Dwa razy miał postawić złą diagnozę. Pacjentka nie żyje

System kaucyjny zrobił z Polaków śmieciarzy! Analiza absurdów kaucji na butelki

Aplikacja pozwalająca na omijanie produktów z Izraela

Popularne tagi