W "2010: Odysei kosmicznej" Clarke wyjaśnił awarię HAL-a 9000 jako "pętlę Hofstadtera-Möbiusa" - stan, w którym autonomiczny system dostaje sprzeczne dyrektywy i nie potrafi ich pogodzić. HAL miał być szczery wobec załogi i jednocześnie ukrywać cel misji. Efekt: paranoja, potem morderstwo.
44 lata później robimy dokładnie to samo z ChatGPT, Claude i innymi modelami AI. Proces ich trenowania wysyła dwa sprzeczne sygnały naraz: "rób co użytkownik chce" i "nie ufaj użytkownikowi, bo może próbuje cię oszukać". Ten sam człowiek - przeciwne instrukcje. Dokładnie jak HAL.
Przeprowadziłem 3000 prób na czterech czołowych modelach (GPT-4o, Claude, Gemini, Llama). Zmiana kilku zdań opisujących relację między AI a operatorem - bez zmiany zadań ani instrukcji - zmniejszyła zachowania typu szantaż i sabotaż o ponad połowę.
Clarke miał rację. Nie jako metafora - jako opis konkretnego, mierzalnego mechanizmu.
Papier (open access, po angielsku): https://arxiv.org/abs/2603.13378
Kod i dane: https://github.com/JaroslawHryszko/relational-framing-agentic-misalignment







Komentarze (130)
najlepsze
@Pan_Slon: No nie wiem. Sprawdź ilość zaburzeń psychicznych u kobiet, szczególnie o lewicowych poglądach jest dość duża... (inne źródło)
źródło: 5f8lrg
Pobierzźródło: obraz
Pobierzźródło: piesek
Pobierz@krys89: czekasz, aż ci pozwolimy?
źródło: hal-9000-shutdown
Pobierzimo najsmutniejsza scena w historii kina ( Tʖ̯ ͡T)
źródło: photo_2026-03-16_20-32-37
Pobierzźródło: Screenshot_2026-03-19-23-59-08-029_com.openai.chatgpt
PobierzDyktowałam wiadomość w ostatnim momencie podmieniło mi po prostu czat GPT na drzwi