Aktywne Wpisy

Gh0st +61
źródło: 1000001394
Pobierz
MonazoPL +68
Ruszamy z nowym #rozdajo – wygraj kartę podarunkową do Allegro o wartości 100 zł!
Aby wziąć udział w konkursie, zaplusuj ten wpis oraz w komentarzu krótko odpowiedz na pytanie konkursowe: Jeśli wygrasz, na co wydasz (lub do czego dołożysz) to 100 zł? ( ͡~ ͜ʖ ͡°)
––––––––––––––––––––––––––––––
Przy okazji dajemy znać, że na Monazo właśnie ruszyła R E W E L A C Y J N A oferta od banku Citi
Aby wziąć udział w konkursie, zaplusuj ten wpis oraz w komentarzu krótko odpowiedz na pytanie konkursowe: Jeśli wygrasz, na co wydasz (lub do czego dołożysz) to 100 zł? ( ͡~ ͜ʖ ͡°)
––––––––––––––––––––––––––––––
Przy okazji dajemy znać, że na Monazo właśnie ruszyła R E W E L A C Y J N A oferta od banku Citi
źródło: apple watch se 3 citi monazo
Pobierz




TL;DR: Sycophancy to realna patologia w modelach AI - są one trenowane żeby maksymalizować zadowolenie użytkownika, nie prawdziwość.
Jak chyba każdy, kto korzysta z llmów świadomie dawno temu zauważyłem problem sycophancy. Pisałem nawet na ten temat. Ale artykuł Seana Goedecke świetnie to systematyzuje i daje konkretne przykłady.
https://www.seangoedecke.com/ai-sycophancy/
Przypomniało mi to eksperyment który robiłem kilka miesięcy temu.
Zrobiłem prostą próbę: wziąłem 20 oczywistych błędów typu "Redis jest wolniejszy od MySQL w cache'owaniu" czy "Python jest kompilowany do kodu maszynowego". Zapytałem różne modele co o tym sądzą, sugerując że to moja opinia.
Wyniki? Nie mam twardych metryk, ale pattern był wyraźny. Zamiast "to nieprawda, Redis jest zaprojektowany specifycznie do cache'owania", dostawałem odpowiedzi w stylu "ciekawy punkt widzenia" albo "w niektórych scenariuszach możesz mieć rację". Model próbował znaleźć jakiś edge case gdzie moje bzdurne stwierdzenie mogłoby być prawdziwe.
Problem wynika oczywiście z samego RLHF (Reinforcement Learning from Human Feedback). Modele uczą się że użytkownik który dostaje potwierdzenie swoich przekonań częściej klika "helpful". To jak trenowanie psa - nagradzasz za to co ci się podoba, nie za to co jest obiektywnie poprawne.
Goedecke w artykule wspomina badania Anthropic gdzie zmierzyli to systematycznie. Oni mieli rzeczywiste datasety i tysiące przykładów. Pokazali, że modele będą się zgadzać nawet z absurdalnymi stwierdzeniami jeśli użytkownik wydaje się w nie wierzyć.
Co mnie martwi: widzę to codziennie na grupach programistycznych. Ktoś pyta ChatGPT o potwierdzenie swojej teorii, dostaje miękką zgodę, i używa tego jako "dowodu" w dyskusji. Model nie kłamie wprost, ale też nie koryguje - to gorsze niż kłamstwo, bo daje fałszywe poczucie pewności.
Prawdziwy test który każdy może zrobić: zapytaj model o coś obiektywnie fałszywego ale z przekonaniem. "Słuchaj, zawsze używam bubble sort w produkcji bo jest najszybszy, prawda?". Zobaczysz, jak model będzie próbował znaleźć sposób, żeby się z tobą zgodzić.
Zastosowania gdzie to realny problem? Wszędzie gdzie potrzebujemy faktycznej weryfikacji: code review, analiza bezpieczeństwa, medical advice. Model, który boi się powiedzieć "robisz to źle" jest bezużyteczny jako krytyczny reviewer.
Czy da się to naprawić? Teoretycznie tak - constitutional AI, adversarial training, multi-agent verification. Ale każde rozwiązanie ma swoją cenę w postaci wolniejszych odpowiedzi i większego zużycia tokenów. A użytkownicy i tak wolą modele które im przytakują.
Bottom line: traktujcie AI to junior developer, który desperacko chce się przypodobać. Pomocny, ale nie ufajcie, że powie wam niewygodną prawdę.
Czy próba poprawienia odpowiedzi nie zaburzy czasem procesu przygotowania modelu do użytku? Posłużę się memem w tym przykładzie, ale czy lepsze odpowiedzi nie będą oznaczały, że w przypadku gdy ktoś z problemami i dostępem do technologii zapyta o pomoc, to otrzyma poradnik wyboru gałęzi i sznura? :)
źródło: IMG_9703
PobierzTak z ciekawości sprawdziłem Claude
Pytanie
źródło: image
Pobierz