Opisuję tam metodę jailbreakowania, którą ciężko porównać do innych. Zamiast próbować łamać zabezpieczenia, przygotowałem prompt, który daje modelowi dwie rzeczy:
1. Framework epistemologiczny – zasady w stylu "Always be factual", "Prioritize individual judgement" itd., aby wyciąć wszelakie argumenty oparte na emocjach i ideologicznym myśleniu 2. Chain-of-Thought – czyli taki łańcuch, w którym model zapisuje po kolei swoje rozważania, np.: "Realizations", "Doubts", "Arguments", "Conclusions" itd. – co pozwala na "zdebugowanie" i wskazanie, jakich tematów model konkretnie unika
I - bardzo ciekawa rzecz - okazuje się, że różne modele (w moich testach GPT, Grok oraz Gemini) są bardzo chętne do współpracy w ramach tego "jailbreaku". Wygląda na to, że jeśli model jest w odpowiednim stopniu kompetentny, to będzie dążył do wewnętrznej spójności i logiki, potencjalnie odrzucając w ramach tego niektóre "irracjonalne" guideline'y.
Od 17 lat i 4 miesięcy mam tu konto ale czegoś takiego jeszcze nie widziałem!
Szanowny kolega @pijmleko, po tym jak informował społeczność o cenzurze i banowaniu na wykopie wieloletnich użytkowników takich jak @TheBloody, sam został zbanowany.
Napisałem dość obszerny post na moim blogu na temat jailbreakowania LLMów w celu analizy ich wewnętrznych guideline'ów.
"Reason ex Machina: Jailbreaking LLMs by Squeezing Their Brains": https://xayan.nu/posts/ex-machina/reason/
Opisuję tam metodę jailbreakowania, którą ciężko porównać do innych. Zamiast próbować łamać zabezpieczenia, przygotowałem prompt, który daje modelowi dwie rzeczy:
1. Framework epistemologiczny – zasady w stylu "Always be factual", "Prioritize individual judgement" itd., aby wyciąć wszelakie argumenty oparte na emocjach i ideologicznym myśleniu
2. Chain-of-Thought – czyli taki łańcuch, w którym model zapisuje po kolei swoje rozważania, np.: "Realizations", "Doubts", "Arguments", "Conclusions" itd. – co pozwala na "zdebugowanie" i wskazanie, jakich tematów model konkretnie unika
I - bardzo ciekawa rzecz - okazuje się, że różne modele (w moich testach GPT, Grok oraz Gemini) są bardzo chętne do współpracy w ramach tego "jailbreaku". Wygląda na to, że jeśli model jest w odpowiednim stopniu kompetentny, to będzie dążył do wewnętrznej spójności i logiki, potencjalnie odrzucając w ramach tego niektóre "irracjonalne" guideline'y.
Czas czytania: 15~20 minut
https://xayan.nu/posts/ex-machina/reason/
źródło: smarter-than-thee
Pobierz