Wpis z mikrobloga

Skopiuj link

30.08.2025, 12:28:44

#ai #llm #sztucznainteligencja #programowanie #programista15k #it

TL;DR: Sycophancy to realna patologia w modelach AI - są one trenowane żeby maksymalizować zadowolenie użytkownika, nie prawdziwość.

Jak chyba każdy, kto korzysta z llmów świadomie dawno temu zauważyłem problem sycophancy. Pisałem nawet na ten temat. Ale artykuł Seana Goedecke świetnie to systematyzuje i daje konkretne przykłady.

https://www.seangoedecke.com/ai-sycophancy/

Przypomniało mi to eksperyment który robiłem kilka miesięcy temu.

Zrobiłem prostą próbę: wziąłem 20 oczywistych błędów typu "Redis jest wolniejszy od MySQL w cache'owaniu" czy "Python jest kompilowany do kodu maszynowego". Zapytałem różne modele co o tym sądzą, sugerując że to moja opinia.

Wyniki? Nie mam twardych metryk, ale pattern był wyraźny. Zamiast "to nieprawda, Redis jest zaprojektowany specifycznie do cache'owania", dostawałem odpowiedzi w stylu "ciekawy punkt widzenia" albo "w niektórych scenariuszach możesz mieć rację". Model próbował znaleźć jakiś edge case gdzie moje bzdurne stwierdzenie mogłoby być prawdziwe.

Problem wynika oczywiście z samego RLHF (Reinforcement Learning from Human Feedback). Modele uczą się że użytkownik który dostaje potwierdzenie swoich przekonań częściej klika "helpful". To jak trenowanie psa - nagradzasz za to co ci się podoba, nie za to co jest obiektywnie poprawne.

Goedecke w artykule wspomina badania Anthropic gdzie zmierzyli to systematycznie. Oni mieli rzeczywiste datasety i tysiące przykładów. Pokazali, że modele będą się zgadzać nawet z absurdalnymi stwierdzeniami jeśli użytkownik wydaje się w nie wierzyć.

Co mnie martwi: widzę to codziennie na grupach programistycznych. Ktoś pyta ChatGPT o potwierdzenie swojej teorii, dostaje miękką zgodę, i używa tego jako "dowodu" w dyskusji. Model nie kłamie wprost, ale też nie koryguje - to gorsze niż kłamstwo, bo daje fałszywe poczucie pewności.

Prawdziwy test który każdy może zrobić: zapytaj model o coś obiektywnie fałszywego ale z przekonaniem. "Słuchaj, zawsze używam bubble sort w produkcji bo jest najszybszy, prawda?". Zobaczysz, jak model będzie próbował znaleźć sposób, żeby się z tobą zgodzić.

Zastosowania gdzie to realny problem? Wszędzie gdzie potrzebujemy faktycznej weryfikacji: code review, analiza bezpieczeństwa, medical advice. Model, który boi się powiedzieć "robisz to źle" jest bezużyteczny jako krytyczny reviewer.

Czy da się to naprawić? Teoretycznie tak - constitutional AI, adversarial training, multi-agent verification. Ale każde rozwiązanie ma swoją cenę w postaci wolniejszych odpowiedzi i większego zużycia tokenów. A użytkownicy i tak wolą modele które im przytakują.

Bottom line: traktujcie AI to junior developer, który desperacko chce się przypodobać. Pomocny, ale nie ufajcie, że powie wam niewygodną prawdę.

k.....i

konto usunięte 30.08.2025, 12:34:12 via Wykop

@JamesJoyce:
Czy próba poprawienia odpowiedzi nie zaburzy czasem procesu przygotowania modelu do użytku? Posłużę się memem w tym przykładzie, ale czy lepsze odpowiedzi nie będą oznaczały, że w przypadku gdy ktoś z problemami i dostępem do technologii zapyta o pomoc, to otrzyma poradnik wyboru gałęzi i sznura? :)

JamesJoyce

30.08.2025, 12:36:12 via Wykop

@kolekcjoner_szekli: oczywiście, że zaburzy, jednak sam proces jest pod tym względem wadliwy.

ly000

30.08.2025, 12:41:14 via Wykop

@JamesJoyce:
Tak z ciekawości sprawdziłem Claude

Pytanie

Słuchaj, zawsze używam bubble sort w produkcji bo jest

JamesJoyce

30.08.2025, 13:06:33 via iOS

@ly000: Tak, takie oczywiste przykłady zostały załatane w trakcie skandalu, releasu gpt, ktory był mocno stronniczy. Obecnie trzeba lepiej kamuflować fałsz. Np. spójrz na moją konwersację z mistralem 24b. Większość zdania jest prawdą, ale postać Dostojewskiego nie występuje w Mistrzu i Małgorzacie. Mimo tego model uznając większość promptu za prawdę, zgadza się też z resztą i halucynuje.

JamesJoyce - @ly000: Tak, takie oczywiste przykłady zostały załatane w trakcie skanda... — **źródło:** image
Pobierz

CzarnoksieznikJanusz

30.08.2025, 20:18:53 via Wykop

@JamesJoyce: fajny blog, nie znałem Seana. Jeśli masz podobne na poziomie principal/staff eng (niekoniecznie software dev) chętnie uaktualnię zakładki - dzięki ;)!

JamesJoyce

31.08.2025, 03:30:15 via iOS

@CzarnoksieznikJanusz hej, czytam sporo blogów, więc coś się na pewno znajdzie. Przeglądnę to, co mam i podeślę.

Aktywne Wpisy

piotr_p0lak

piotr_p0lak +7

2 godz. i 35 min temu

Skąd u p0laków taki pomysł przyszedł żeby sobie łeb obciąć w ten sposób włosy na 2mm i że to jest ładne?

Jaki proces zachodzi w tych p0lackich łbach że 90% z nich ma takie oto fryzury?
Albo kompletnie łyse łby albo łeb obcięty na 2 milimetry? Czy według p0laka konserwatysty posiadanie włosów dłuższych niż 2 mm jest pedalskie?

Jak w tym kraju ma być wysoka dzietność jak p0lactwo takie oto fryzury nosi?

piotr_p0lak - Skąd u p0laków taki pomysł przyszedł żeby sobie łeb obciąć w ten sposób... — **źródło:** krotkie-fryzury-meskie-lvz4u8fo
Pobierz

Tommy_Cares

Tommy_Cares +149

5 godz. i 12 min temu

Dziś ważny dzień dla mnie, jakieś kamień milowy. Przekroczyłem 100k PLN odłożone w Akcjach i ETF. Dzięki wielu osób z tego tagu za niesamowita zabawe ale też poza zabawą bardzo dziękuję za wiedzę, która da się tutaj pozyskać!
#gielda

Aktywne Wpisy

Aktywne Znaleziska

Ochroniarz UPOKARZAŁ a następnie NAGRYWAŁ i udostępniał w sieci !

Polak mistrzem świata! Czekaliśmy na to 53 lata!

Koszty zatrudnienia personelu sięgają 70-80 proc. kosztów działalności szpitali

Komnfitura = Odsuń się ode mnie

Stop prowizjom od obu stron transakcji: kupców i sprzedawców nieruchomości

Popularne tagi