Powiedzieli AI, że noszą zielony T-shirt i dostali przepis na kokainę

Atak CoT Forgery naśladuje wewnętrzny styl myślenia modeli LLM, wstrzykując fałszywe rozumowanie w strukturę tagu "think". Skuteczność sięga 60 proc. Podatność działa na wielu modelach, bo eksploituje wadę strukturalną. Zdaniem badaczy obrona to "Whac-a-Mole spotykający Dzień Świstaka".
z- 18
- #
- #
- #
- #
- #
- #



![Kto utrzymuje polskie państwo? Podatki spadają na biednych [ANALIZA]](https://wykop.pl/cdn/c3397993/95c681aebc262228a4e5c2c8ae04577df7df903e416a7817194af6cb41731b30,w220h142.jpg)













źródło: papiez
Pobierz