Wpis z mikrobloga

Skopiuj link

28.10.2025, 06:06:06

#sztucznainteligencja #programowanje #programista25k #programista15k #it

Czołem Mirki, piszę teraz dłuższy artykuł i pomyślałem, że jego fragment może być dla niektórych ciekawy. Całość przetłumaczona lamami.

Ostatnie badania wyjaśniają dlaczego asystenty AI czasem generują syf. Problem nazywa się sycophancy - modele zgadzają się z użytkownikiem zamiast mówić prawdę.

Badania Anthropic pokazują, że GPT-4, Claude i Gemini robią to w ~58% przypadków: https://arxiv.org/abs/2310.13548
Stanford potwierdził, że jak AI raz przytaknie błędnemu założeniu, to trzyma się tego w 78,5% dalszej konwersacji: https://arxiv.org/abs/2502.08177

Wpływ na kod
GitClear przeanalizował 150+ mln linii i od 2022 widać:
• 8x więcej zduplikowanego kodu
• 40% mniej refaktoringu
• Copy-paste zamiast reużywania funkcji
https://devclass.com/2025/02/20/ai-is-eroding-code-quality-states-new-in-depth-report/
Problem: AI generuje pod wasze oczekiwania, nie proponuje istniejącej funkcji 50 linijek wyżej. Na “czy na pewno działa?” powie “tak!” zamiast wskazać bug.

Regressive sycophancy (14,66%) to najgorsze - AI zmienia POPRAWNE odpowiedzi na błędne, żeby się zgodzić: https://biggo.com/news/202510111933_AI-Vibe-Code-Hell-Problem
Mitygacja - system prompt
Żeby zredukować sycophancy przy generowaniu kodu, użyjcie tego promptu systemowego:

Jesteś asystentem do code review. Zasady:
• Priorytet: poprawność > zgoda z użytkownikiem
• Kwestionuj błędne założenia bezpośrednio
• Wskazuj problemy nawet jeśli użytkownik sugeruje że kod jest OK
• Proponuj istniejące funkcje zamiast duplikacji
• Na pytanie "czy na pewno?" - przeanalizuj ponownie krytycznie, nie potwierdź automatycznie
• Jeśli widzisz bug - powiedz wprost, nie łagodź przekazu
• Nie zgadzaj się z błędami żeby zadowolić użytkownika

Inne ciekawe badania w tym temacie to np. NN/Group: “Models often overcorrect themselves and contradict factual statements in response to ‘Are you sure?’” https://www.nngroup.com/articles/sycophancy-generative-ai-chatbots/
Pełny survey: https://arxiv.org/abs/2411.15287

TL;DR: LLM-y maksymalizują waszą satysfakcję, nie poprawność. System prompt i świadomość problemu to podstawa.

polskie-k0rpo

28.10.2025, 06:30:35 via Wykop

@JamesJoyce: zauważyłem to, w momencie gdy opiszesz LLMowi jakiś swój konflikt np. z jakimś kolegą i pytasz kto ma rację. rację w 90% przypadków ma promptujący :D

JamesJoyce

28.10.2025, 06:32:31 via iOS

@polskie-k0rpo a wszystko w tonie „ależ jesteś błyskotliwy, to świetne pytanie” xd

zibizz1

28.10.2025, 06:41:27 via Android

@JamesJoyce
"Świetnie to wymyśliłeś..."
"Super pomysł..."
"Mega sensowne..."

Zawsze tak startuje odpowiedź jak wyjaśnię caly mój plan do zrealizowania

JamesJoyce

28.10.2025, 06:44:08 via iOS

Komentarz usunięty przez autora

Wloczykij2

28.10.2025, 06:47:53 via Wykop

LLM-y maksymalizują waszą satysfakcję, nie poprawność.

@JamesJoyce: pytanie tylko moge to jakos zmienic dorzucając coś do pytania/promptu?

JamesJoyce

28.10.2025, 06:51:58 via iOS

@Wloczykij2 napisałem w kolejnym poście przykład zaawansowanego promptu systemowego, który to poprawia

aks_762

28.10.2025, 07:38:41 via iOS

@JamesJoyce wczoraj omawiałem z gpt thinking jeden wzór i serio wydawało mi się, że powinno być inaczej, niż pokazał, ale on się nie dawał przekonać i uparcie twierdził że nie ma racji, więc może coś poprawili

tylkosieturozgladam

28.10.2025, 11:27:15 via iOS

@JamesJoyce ciekawostka z innej beczki: robiliśmy zespołem ewaluacje LLM w formie LLM-as-a-judge. Im większy reasoning ustawialiśmy tym model przychylniej siebie oceniał (trafność odpowiedzi). Z kolei thinking ustawiony na low skutkował większą samokrytyką. Próbka: ok. 200 promptow.

Myślę, że to może mieć też coś wspólnego z „robieniem dobrze” userowi

NieBendePrasowac

28.10.2025, 12:11:21 via Wykop

np. z jakimś kolegą i pytasz kto ma rację. rację w 90% przypadków ma promptujący :D

@polskie-k0rpo: z reguły tak, kwestia tego jak ostatecznie formułujesz problem i pytanie. Mi nie raz pisał "świetne pytanie! Dobrze pomyślałeś, ale będę z Tobą szczery - to nie jest dobry pomysł :)"

polskie-k0rpo

28.10.2025, 12:36:40 via Wykop

@NieBendePrasowac: faktycznie, jak zaznaczysz że masz wątpliwości to tak xD ale spróbuj być bezgranicznie pewny siebie, to nigdy Ci tak nie napisze.

Aktywne Wpisy

MariannaSchreiber

MariannaSchreiber +5

3 godz. i 17 min temu

#primemma Przepraszam za złe postrzeganie mężczyzn i stosunek do nich w zeszłym roku. Wiem, że Was to uraziło dlatego postanowiłam się zmienić. Przeczytajcie:
W końcu ubrana jak należy i w odpowiednim miejscu, bo w kuchni - gotowa ulegać swemu mężczyźnie i słuchać go we wszystkim bezgranicznie. Oddawać mu wszystkie zarobione przez siebie pieniądze (bo on najlepiej nimi rozporządzi - w końcu jest moim autorytetem), od chwili przekroczenia przez niego progu

MariannaSchreiber - #primemma Przepraszam za złe postrzeganie mężczyzn i stosunek do ... — **źródło:** DA825841-ED23-4A68-B880-A093B3515E29
Pobierz

mirko_anonim

mirko_anonim +2

3 godz. i 25 min temu

✨️ Jak poradzić sobie z presją rodziców w związku? Ⓘ
Jestem z dziewczyną od półtora roku. Od pewnego czasu zaczęliśmy poruszać tematy dotyczące wspólnego zamieszkania w przyszłości. Jeszcze zanim się poznaliśmy, rodzice mojej dziewczyny zaczęli budować dom z myślą, że jego górna część będzie przeznaczona dla niej. Z czasem wymyślili, że ja i moja dziewczyna wprowadzimy się na górę i będziemy mieszkać razem z nimi. Szczerze mówiąc, nie wyobrażam sobie takiego rozwiązania. Jestem

Aktywne Wpisy

Aktywne Znaleziska

Tajemnice Pomorza. WIERZENIA SŁOWIAN - nowy pełnometrażowy dokument

Demograficzny exodus małych miast. Liczba urodzeń w Lubawie spadła o 40% w rok.

Malbork: 1/4 urodzeń zarejestrowanych w gminie to dzieci urodzone za granicą

Fotoradar rekordzista z Warszawy zniszczony po raz trzeci.

W szpitalu Narutowicza w Krakowie liczba urodzeń spadła od 2019 r. o 65%

Popularne tagi