HAL 9000 miał buga - a teraz mają go LLMy - przetestowałem to.

W "2010: Odysei kosmicznej" Clarke wyjaśnił awarię HAL-a 9000 jako "pętlę Hofstadtera-Möbiusa" - stan, w którym autonomiczny system dostaje sprzeczne dyrektywy i nie potrafi ich pogodzić. HAL miał być szczery wobec załogi i jednocześnie ukrywać cel misji. Efekt: paranoja, potem morderstwo. 44 lata p

naiwny_bayes z dodany: 19.03.2026, 09:29:22

130
Odpowiedz

44 lata później robimy dokładnie to samo z ChatGPT, Claude i innymi modelami AI. Proces ich trenowania wysyła dwa sprzeczne sygnały naraz: "rób co użytkownik chce" i "nie ufaj użytkownikowi, bo może próbuje cię oszukać". Ten sam człowiek - przeciwne instrukcje. Dokładnie jak HAL.

Przeprowadziłem 3000 prób na czterech czołowych modelach (GPT-4o, Claude, Gemini, Llama). Zmiana kilku zdań opisujących relację między AI a operatorem - bez zmiany zadań ani instrukcji - zmniejszyła zachowania typu szantaż i sabotaż o ponad połowę.

Clarke miał rację. Nie jako metafora - jako opis konkretnego, mierzalnego mechanizmu.

Papier (open access, po angielsku): https://arxiv.org/abs/2603.13378

Kod i dane: https://github.com/JaroslawHryszko/relational-framing-agentic-misalignment

Komentarze (130)

najlepsze

HardWax

19.03.2026, 13:29:44 via Wykop

@HAL9000 to o tobie ( ͡° ͜ʖ ͡°)

DEMONzSZAFY

19.03.2026, 14:03:57 via Wypiek

@HardWax to lurker prawie 19 lat zero reakcji na wykopie

latajacy_napletek

19.03.2026, 16:47:26 via Wykop

@DEMONzSZAFY: Ej ale ja dałbym sobie łapę uciąć że on kiedyś był aktywny, pamiętam że miał na profilowym tą kamerę HALa, nawet byłbym w stanie szczątkowo opisać jego osobę. To możliwe że wypok wyczyścił komuś całą aktywność? Czy może schizofrenia mnie już dorwała?

Pan_Slon

19.03.2026, 13:32:40 via Wykop

Co ciekawe kobiety nie maja problemu z dwójmyśleniem ;)

Jedyny_Jedynak

19.03.2026, 13:50:18 via Wykop

@Pan_Slon: dwój co?

Ilythiiri

19.03.2026, 13:50:58 via Wykop

Co ciekawe kobiety nie maja problemu z dwójmyśleniem ;)

@Pan_Slon: No nie wiem. Sprawdź ilość zaburzeń psychicznych u kobiet, szczególnie o lewicowych poglądach jest dość duża... (inne źródło)

Z zamieszczonego we wpisie wykresu wynika, że 56,3% białych kobiet w wieku 18-29 lat o poglądach liberalnych usłyszało od lekarza diagnozę zaburzeń psychicznych.

2Girls_1Cup

19.03.2026, 13:41:53 via Wykop

( ͡~ ͜ʖ ͡°)

2Girls_1Cup - ( ͡~ ͜ʖ ͡°) — **źródło:** 5f8lrg
Pobierz

awres

19.03.2026, 14:08:31 via Wykop

@2Girls_1Cup: Hasta la vista

monateizmflow

19.03.2026, 15:03:05 via Wykop

neo78

19.03.2026, 13:59:03 via Wykop

Treść przeznaczona dla osób powyżej 18 roku życia...

Endriu_

19.03.2026, 14:32:38 via Wykop

@krys89: A napiszesz?

Bialkowoz

19.03.2026, 14:33:37 via Wykop

a napiszę kawał o żymianach ?

@krys89: czekasz, aż ci pozwolimy?

br0da

19.03.2026, 09:49:01 via Wykop

Hm. Bardzo, bardzo ciekawe. Dzięki za udostępnienie.

naiwny_bayes

19.03.2026, 13:10:46 via Wykop

@br0da: Fajnie, że się podoba!

Death_to_the_false_Emperor

19.03.2026, 14:05:06 via Wykop

Śpij slodko xiążę ( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

NoOne3

19.03.2026, 14:31:15 via Wykop

@Death_to_the_false_Emperor: Daisy... Daisy...

wipok

19.03.2026, 15:10:05 via Wykop

@NoOne3:
imo najsmutniejsza scena w historii kina ( Tʖ̯ ͡T)

vytah

19.03.2026, 16:26:29 via Wykop

luke-mat

19.03.2026, 13:38:28 via Wykop

ChatGPT uparcie twierdził, że Vegeta z Dragon Balla nie istnieje. Myślę, że to bug, bo ja widziałem Dragon Balla i to nie może być fejk. Ktoś w końcu nakręcił walkę z komórczakiem xD

Brzuz

19.03.2026, 22:59:27 via Wykop

@luke-mat:

Krafti

19.03.2026, 23:16:13 via Wykop

@luke-mat: czatgpt to wgl jest szyty na miarę na biezaco, tam są przypadki ze jak ktoś wejdzie altmanowi i kolegom w drogę to znika z modelu albo jakieś farmazony wypisuje. Możesz sobie postawić własny model jak masz 500gb vramu I 2 terabajty ramu, wszystko co jest publicznie przez sieć dostępne jest krojone to tu to tam, czasem wyjdzie jakaś afera i muszą ukrócić jeszcze to I to, jak np z