Wpis z mikrobloga

#programista15k #programowanie #it #chatgpt #sztucznainteligencja #filozofia

Ciekawe jak google poradzi sobie z nawałnicą syntetycznego kontentu, który szturmuje internet od momentu udostępnienia ChatuGPT i kolejnych modeli. Faktem jest bowiem, że od połowy 2023 r. korpus ludzkiej wiedzy będzie musiał być traktowany zasadniczo inaczej niż przed 2023. Scrappowanie danych z mediów społecznościowych, google image czy czegokolwiek innego obecnie może zniszczyć cały utworzony dataset. Nie ma obecnie żadnego działającego dobrze sposobu na odróżnienie tekstu/obazu syntetycznego od prawdziwego.

Trenowanie modeli na sytnetycznych lub częściowo syntetycznych danych niestety nie działa tak dobrze, jak uważano.

Moim zdaniem watermarki typu "human generated" mogą sporo zyskać na wartości. Podobnie, jak, uwaga, uwaga, kod czy program lub inny obiekt informatyczny, przygotowany i supportowany przez ludzi. Kilka miesięcy Sam Harris zrobił ciekawy podcast, w którym występował Hinton i Marcus. Polecam serdecznie:

https://open.spotify.com/episode/2xRqt6pkQdJADMG4DWKaxL

Harris, moim zdaniem trafnie twierdzi, że w dobie wzrostu ilości syntetycznego tekstu wzrośnie znaczenie ekspertów dziedzinowych i ekspertyzy, bo tylko ona będzie w stanie wskazać granicę między rzeczywistością a halucynacjami llmów. Może więc wcale nie będzie tak źle, jak nam się wydaje? Kto to wie. Ja nie wiem.
  • 14
Moim zdaniem watermarki typu "human generated" mogą sporo zyskać na wartości. Podobnie, jak, uwaga, uwaga, kod czy program lub inny obiekt informatyczny, przygotowany i supportowany przez ludzi.


Tak, w przypadku twórczości literackiej czy dziennikarskiej, gdzie autor czerpie z rzeczywistości, używając empatii i zmysłu obserwacji. Użycie narzędzi AI do przeformułowania zdania czy dobrania synonimu nie umniejsza wartości dzieła.

Porównajmy to z językiem marketingu, który współcześnie nie przekazuje żadnych informacji tylko puste komunikaty. Dla
Trenowanie modeli na sytnetycznych lub częściowo syntetycznych danych niestety nie działa tak dobrze, jak uważano.


@JamesJoyce: internet nawet bez syntetycznej zawartości jest pełny błędnych informacji ;-) ja na to patrzę w ten sposób, że LLM wytrenowane przy użyciu losowych danych pościąganych z internetu to raczej zabawka. zastosowanie znajdą te modele (nie tylko LLM), które zostaną wytrenowane przy użyciu oczyszczonych, wyselekcjonowanych, wysokiej jakości danych. nie będą też wtedy darmowe bo takie dane
@filozof900: ale jak oznaczyć, które dane są prawdziwe a które nie? Przypuszczam, że z czasem mogą powstać nowe sposoby na to, ale czy powstaną, to też nie jest tak oczywiste, jak mogłoby się wydawać. Myślę, że najprostszym rozwiązaniem będą regulacje, np. na poziomie EU, które wymuszą tagowanie treści tworzonej przez AI.
@JamesJoyce nie trzeba oznaczać bo dane nie będą pochodzić z internetu ;-) jeżeli będziesz chciał mieć komercyjny model dla prawników, to do nauki będziesz używał zbiorów danych z sądów, kodeksów, książek itd. pomijamy tu kwestie prawne, taki przykład po prostu. na danych z neta można stworzyć dobry model do memów, z resztą właśnie do tego czat gpt najlepiej się nadaje póki co.
ale jak oznaczyć, które dane są prawdziwe a które nie?


@JamesJoyce: W przypadku stron, podejrzewam, że Google czy Bing będą rozwijać system reputacji źródeł. W przyszłości może być taki natłok treści syntetycznych, że nikt nie będzie chciał ich indeksować a uwzględnienie URI w rezultatach wyszukiwania będzie przywilejem. Może wtedy SEO jako dyscyplina będzie do czegoś przydatna?

Jeśli chodzi o datasety, to domyślam się, że era darmowych, tudzież "pożyczonych" danych dobiega końca
@filozof900: zgadzam się, ale jest pewne ale. Już GPT-3 było trenowane na projekcie Gutenberg i Wikipedii. Podejrzewam zatem, że GPT-4 dostało to i jeszcze więcej. A zatem ono już jest wytrenowane na danych prawniczych. Co więcej dalej? Pewnie prywatne dane kancelarii prawniczych. Tylko obawiam się, że może tego nie być aż tyle, by doprowadzić do drastycznego skoku jakości modelu. Wiadomo, rozwijane są nowe techniki one i few shot learningu, czy q
@pa6lo: Tak. Swoją drogą internet przed i po SEO to także dwa różne byty. Co do datasetów, to mnie ciekawi przypadek aktualnych modeli. No bo oczywistym jest, że darmowe dane się skończą. To moim zdaniem nie ulega wątpliwości. Ale co w przypadku aktualnych modeli, które są wytrenowane na tych właśnie "darmowych" danych. Te dane przecież były "darmowe" bo nie ma jeszcze przepisów dotyczących ich komercjalizacji, a poza tym nikt nie wiedział,
@filozof900: Swoją drogą w kwestii regulacji na poziomie EU, powstał Letter of Concern "The EU AI Act needs
Foundation Model Regulation". W skrócie, naukowcy obawiają się, że Big Tech będzie chciał wyłączyć z regulacji tzw. podstawowe modele, czyli obecne llmy (to chyba odpowiedź na moją wątpliwość z poprzedniego komentarza). Nie jest tajemnicą, o czym już pisałem, że obecnie strategie badawcze koncentrują się raczej na małych modelach, które np. byłyby trenowane przy
@JamesJoyce też się nad tym zastanawiałem, moim zdaniem będą w przyszłości protesty z tym związane i stanie się to problemem politycznym.

w przypadku zawodów kreatywnych to jest trochę niefortunne, że na owocach pracy setek tysięcy ludzi można stworzyć modele które później można komercyjnie (albo nawet i bezpłatnie) użyczać komuś, kto stanie się konkurencją dla oryginalnych autorów. tak jak mowisz nikt raczej świadomie sie na to nie pisał.
Te dane przecież były "darmowe" bo nie ma jeszcze przepisów dotyczących ich komercjalizacji,


@JamesJoyce: Nie znam się na prawie własności intelektualnej więc mogę jedynie gdybać. Obecnie mamy do czynienia usunięciem na żądanie, tj. będąc autorem dzieła musisz wysłać wniosek o wykluczenie ze zbioru. Ciekawe, czy i kiedy prawo zacznie wymagać ogarnięcia kwestii własności danych przed procesem trenowania modelu?

Następnie, czy prawo wystarczy, a może rozwiną się techniki anty-scrappingowe a z drugiej
@pa6lo:
To jest chyba największy problem i kojarzy mi się z piractwem komputerowym na sterydach. W końcu tutaj nikt nie używa tych danych hobbystycznie do projektu, który schowa do szuflady tylko trenuje modele w celach komercyjnych. Bez tych danych narzędzie nie miałoby szans na taki sukces.
@JamesJoyce:

Ja się zastanawiałem nad tym problemem (tak mi się wydaje), ale pod innym kątem. Kiedy większość contentu w sieci stanie się syntetyczna, a fejki będzie ciężko odróżnić lub będą nierozróżnialne od prawdy to w zasadzie efektem może być wycofanie się z życia internetowego przez ludzi i powrót w jakimś stopniu do rzeczywistości - albo to albo stworzenie spisu stron gdzie treści będą są humangenerated i jest to stricte kontrolowane przez
kojarzy mi się z piractwem komputerowym na sterydach.


@vateras131: Trafna uwaga. Zanim prawo ogarnie tę kwestię, to wiele podmiotów zdąży utuczyć się na kradzionym, jak dawniej handlarze z Grzybowskiej. Mając pierwsze modele gotowe, będą oni krzyczeć najgłośniej o etyce w AI i potrzebie regulacji dostępu do danych treningowych.

Dodatkowo sprawa z Deviant Art pokazuje potrzebę zmian w kwestii własności materiałów publikowanych przez użytkowników, do których serwis rości sobie wyłączne prawo.