W modelach AI toksyczna persona może się wybudzić całkiem niespodziewanie

Badacze fine-tuningowali model na zbiorze zadań związanych z pisaniem niebezpiecznego kodu, a następnie sprawdzali, jak zachowuje się on w pytaniach niezwiązanych z programowaniem. Zamiast ograniczyć się do błędów w pisanym kodzie, model zaczął częściej generować odpowiedzi agresywne i manipulacyjne
z- 0
- #
- #
- #
- #
- #