Zaczęło się od LLMów, czeli od dużych modeli językowych, rozumiejących tylko tekst i nic więcej.
Potem były multimodalne LLMy, które odrobinę rozumiały obraz, poza samym tekstem. Następnie dołożono do nich rozumienie dźwięku i wideo. I dostaliśmy - multimodalne LLMy.
Następnie przyszła warstwa rozumująca, z pojedynczym łańcuchem mysli - LRMy, by obecnie najlepsze LRMy rozumowały równolegle - z wieloma łańcuchami myśli.
Aż do niedawna jednak, rozumienie werbalne (tekstu) było jednak w takich multimodalnych LRMach dominujące,























Oglądam właśnie kolejny materiał o deepfake’ach i nasuwa mi się dość prosta myśl.
No i co z tego, że teraz filmy będą wyglądać idealnie i praktycznie nie da się ich odróżnić od prawdziwych?
Przecież od kilkunastu lat żyjemy w pełnej erze dezinformacji. Ludzie wierzyli w byle screen z Painta, w wyrwane z kontekstu cytaty, w anonimowe „źródła w resorcie”, w memy podawane
Nie chodzi o to, że nagle wszyscy zaczną wierzyć w absurdalne deepfake'i - większość i tak wierzyła w to, co im pasowało, niezależnie od dowodów. Smutne jest to, że tracimy ostatnią wspólną płaszczyznę, na której mogliśmy się w ogóle
Wydaje się, że to powinno zachęcić ludzi do bezpośrednich kontaktów jako jedynych gwarantujących prawdziwość... Ale ta bańka się skurczy jeszcze bardziej.