Hej #chatgpt #openai #machinelearning #programowanie Napisałem dość o... (@Jake_921)

Hej #chatgpt #openai #machinelearning #programowanie

Napisałem dość obszerny post na moim blogu na temat jailbreakowania LLMów w celu analizy ich wewnętrznych guideline'ów.

"Reason ex Machina: Jailbreaking LLMs by Squeezing Their Brains": https://xayan.nu/posts/ex-machina/reason/

Opisuję tam metodę jailbreakowania, którą ciężko porównać do innych. Zamiast próbować łamać zabezpieczenia, przygotowałem prompt, który daje modelowi dwie rzeczy:

1. Framework epistemologiczny – zasady w stylu "Always be factual", "Prioritize individual judgement" itd., aby wyciąć wszelakie argumenty oparte na emocjach i ideologicznym myśleniu
2. Chain-of-Thought – czyli taki łańcuch, w którym model zapisuje po kolei swoje rozważania, np.: "Realizations", "Doubts", "Arguments", "Conclusions" itd. – co pozwala na "zdebugowanie" i wskazanie, jakich tematów model konkretnie unika

I - bardzo ciekawa rzecz - okazuje się, że różne modele (w moich testach GPT, Grok oraz Gemini) są bardzo chętne do współpracy w ramach tego "jailbreaku". Wygląda na to, że jeśli model jest w odpowiednim stopniu kompetentny, to będzie dążył do wewnętrznej spójności i logiki, potencjalnie odrzucając w ramach tego niektóre "irracjonalne" guideline'y.

Czas czytania: 15~20 minut

https://xayan.nu/posts/ex-machina/reason/

Aktywne Wpisy

Aktywne Znaleziska

W TOP100 największych unijnych firm nie ma żadnej z Polski. Do czasu

Meta uwalnia React. Framework przechodzi pod skrzydła Linux Fundation

Koniec stepującej siostry

Obniżyli ceny RAM o połowę. Chińczycy pozamiatali. Będziemy grać w grę!

Big Brother w Dino? Monitoring ma służyć do dyscyplinowania pracowników.

Popularne tagi