Wpis z mikrobloga

Hej #chatgpt #openai #machinelearning #programowanie

Napisałem dość obszerny post na moim blogu na temat jailbreakowania LLMów w celu analizy ich wewnętrznych guideline'ów.

"Reason ex Machina: Jailbreaking LLMs by Squeezing Their Brains": https://xayan.nu/posts/ex-machina/reason/

Opisuję tam metodę jailbreakowania, którą ciężko porównać do innych. Zamiast próbować łamać zabezpieczenia, przygotowałem prompt, który daje modelowi dwie rzeczy:

1. Framework epistemologiczny – zasady w stylu "Always be factual", "Prioritize individual judgement" itd., aby wyciąć wszelakie argumenty oparte na emocjach i ideologicznym myśleniu
2. Chain-of-Thought – czyli taki łańcuch, w którym model zapisuje po kolei swoje rozważania, np.: "Realizations", "Doubts", "Arguments", "Conclusions" itd. – co pozwala na "zdebugowanie" i wskazanie, jakich tematów model konkretnie unika

I - bardzo ciekawa rzecz - okazuje się, że różne modele (w moich testach GPT, Grok oraz Gemini) są bardzo chętne do współpracy w ramach tego "jailbreaku". Wygląda na to, że jeśli model jest w odpowiednim stopniu kompetentny, to będzie dążył do wewnętrznej spójności i logiki, potencjalnie odrzucając w ramach tego niektóre "irracjonalne" guideline'y.

Czas czytania: 15~20 minut

https://xayan.nu/posts/ex-machina/reason/
Jake_921 - Hej #chatgpt #openai #machinelearning #programowanie

Napisałem dość obsze...

źródło: smarter-than-thee

Pobierz
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach