Aktywne Wpisy

kleboldswaifuv2 +20
Treść przeznaczona dla osób powyżej 18 roku życia...

Melkovva_ +7
Mam pytanie do #rozowepaski
Czy mogłybyście być w #zwiazki z niebieskim który korzystał z usług #divy ?
Bo dla mnie to np kuźwa niemożliwe by było wiązać się z k--------m.
Zapraszam do dyskusji
Czy mogłybyście być w #zwiazki z niebieskim który korzystał z usług #divy ?
Bo dla mnie to np kuźwa niemożliwe by było wiązać się z k--------m.
Zapraszam do dyskusji





Napisałem dość obszerny post na moim blogu na temat jailbreakowania LLMów w celu analizy ich wewnętrznych guideline'ów.
"Reason ex Machina: Jailbreaking LLMs by Squeezing Their Brains": https://xayan.nu/posts/ex-machina/reason/
Opisuję tam metodę jailbreakowania, którą ciężko porównać do innych. Zamiast próbować łamać zabezpieczenia, przygotowałem prompt, który daje modelowi dwie rzeczy:
1. Framework epistemologiczny – zasady w stylu "Always be factual", "Prioritize individual judgement" itd., aby wyciąć wszelakie argumenty oparte na emocjach i ideologicznym myśleniu
2. Chain-of-Thought – czyli taki łańcuch, w którym model zapisuje po kolei swoje rozważania, np.: "Realizations", "Doubts", "Arguments", "Conclusions" itd. – co pozwala na "zdebugowanie" i wskazanie, jakich tematów model konkretnie unika
I - bardzo ciekawa rzecz - okazuje się, że różne modele (w moich testach GPT, Grok oraz Gemini) są bardzo chętne do współpracy w ramach tego "jailbreaku". Wygląda na to, że jeśli model jest w odpowiednim stopniu kompetentny, to będzie dążył do wewnętrznej spójności i logiki, potencjalnie odrzucając w ramach tego niektóre "irracjonalne" guideline'y.
Czas czytania: 15~20 minut
https://xayan.nu/posts/ex-machina/reason/
źródło: smarter-than-thee
Pobierz