Wpis z mikrobloga

Skopiuj link

28.11.2023, 10:23:38

#programista15k #programowanie #it #chatgpt #sztucznainteligencja #filozofia

Ciekawe jak google poradzi sobie z nawałnicą syntetycznego kontentu, który szturmuje internet od momentu udostępnienia ChatuGPT i kolejnych modeli. Faktem jest bowiem, że od połowy 2023 r. korpus ludzkiej wiedzy będzie musiał być traktowany zasadniczo inaczej niż przed 2023. Scrappowanie danych z mediów społecznościowych, google image czy czegokolwiek innego obecnie może zniszczyć cały utworzony dataset. Nie ma obecnie żadnego działającego dobrze sposobu na odróżnienie tekstu/obazu syntetycznego od prawdziwego.

Trenowanie modeli na sytnetycznych lub częściowo syntetycznych danych niestety nie działa tak dobrze, jak uważano.

Moim zdaniem watermarki typu "human generated" mogą sporo zyskać na wartości. Podobnie, jak, uwaga, uwaga, kod czy program lub inny obiekt informatyczny, przygotowany i supportowany przez ludzi. Kilka miesięcy Sam Harris zrobił ciekawy podcast, w którym występował Hinton i Marcus. Polecam serdecznie:

https://open.spotify.com/episode/2xRqt6pkQdJADMG4DWKaxL

Harris, moim zdaniem trafnie twierdzi, że w dobie wzrostu ilości syntetycznego tekstu wzrośnie znaczenie ekspertów dziedzinowych i ekspertyzy, bo tylko ona będzie w stanie wskazać granicę między rzeczywistością a halucynacjami llmów. Może więc wcale nie będzie tak źle, jak nam się wydaje? Kto to wie. Ja nie wiem.

pa6lo

28.11.2023, 13:18:57 via Wykop

Moim zdaniem watermarki typu "human generated" mogą sporo zyskać na wartości. Podobnie, jak, uwaga, uwaga, kod czy program lub inny obiekt informatyczny, przygotowany i supportowany przez ludzi.

Tak, w przypadku twórczości literackiej czy dziennikarskiej, gdzie autor czerpie z rzeczywistości, używając empatii i zmysłu obserwacji. Użycie narzędzi AI do przeformułowania zdania czy dobrania synonimu nie umniejsza wartości dzieła.

Porównajmy to z językiem marketingu, który współcześnie nie przekazuje żadnych informacji tylko puste komunikaty. Dla

filozof900

28.11.2023, 13:26:44 via Android

Trenowanie modeli na sytnetycznych lub częściowo syntetycznych danych niestety nie działa tak dobrze, jak uważano.

@JamesJoyce: internet nawet bez syntetycznej zawartości jest pełny błędnych informacji ;-) ja na to patrzę w ten sposób, że LLM wytrenowane przy użyciu losowych danych pościąganych z internetu to raczej zabawka. zastosowanie znajdą te modele (nie tylko LLM), które zostaną wytrenowane przy użyciu oczyszczonych, wyselekcjonowanych, wysokiej jakości danych. nie będą też wtedy darmowe bo takie dane

FredOnizuka

JamesJoyce

28.11.2023, 13:36:59 via Wykop

@filozof900: ale jak oznaczyć, które dane są prawdziwe a które nie? Przypuszczam, że z czasem mogą powstać nowe sposoby na to, ale czy powstaną, to też nie jest tak oczywiste, jak mogłoby się wydawać. Myślę, że najprostszym rozwiązaniem będą regulacje, np. na poziomie EU, które wymuszą tagowanie treści tworzonej przez AI.

filozof900

28.11.2023, 13:46:38 via Android

@JamesJoyce nie trzeba oznaczać bo dane nie będą pochodzić z internetu ;-) jeżeli będziesz chciał mieć komercyjny model dla prawników, to do nauki będziesz używał zbiorów danych z sądów, kodeksów, książek itd. pomijamy tu kwestie prawne, taki przykład po prostu. na danych z neta można stworzyć dobry model do memów, z resztą właśnie do tego czat gpt najlepiej się nadaje póki co.

pa6lo

28.11.2023, 14:03:06 via Wykop

ale jak oznaczyć, które dane są prawdziwe a które nie?

@JamesJoyce: W przypadku stron, podejrzewam, że Google czy Bing będą rozwijać system reputacji źródeł. W przyszłości może być taki natłok treści syntetycznych, że nikt nie będzie chciał ich indeksować a uwzględnienie URI w rezultatach wyszukiwania będzie przywilejem. Może wtedy SEO jako dyscyplina będzie do czegoś przydatna?

Jeśli chodzi o datasety, to domyślam się, że era darmowych, tudzież "pożyczonych" danych dobiega końca

budyn

28.11.2023, 14:28:41 via Wykop

@JamesJoyce: @pa6lo @filozof900
No i takie tematy to ja rozumiem czytać do kawki :)
Dzięki chłopaki, nie siedzę w ML, ale bardzo ciekawe to co piszecie.

JamesJoyce

28.11.2023, 14:38:41 via Wykop

@filozof900: zgadzam się, ale jest pewne ale. Już GPT-3 było trenowane na projekcie Gutenberg i Wikipedii. Podejrzewam zatem, że GPT-4 dostało to i jeszcze więcej. A zatem ono już jest wytrenowane na danych prawniczych. Co więcej dalej? Pewnie prywatne dane kancelarii prawniczych. Tylko obawiam się, że może tego nie być aż tyle, by doprowadzić do drastycznego skoku jakości modelu. Wiadomo, rozwijane są nowe techniki one i few shot learningu, czy q

pa6lo

JamesJoyce

28.11.2023, 14:42:41 via Wykop

@pa6lo: Tak. Swoją drogą internet przed i po SEO to także dwa różne byty. Co do datasetów, to mnie ciekawi przypadek aktualnych modeli. No bo oczywistym jest, że darmowe dane się skończą. To moim zdaniem nie ulega wątpliwości. Ale co w przypadku aktualnych modeli, które są wytrenowane na tych właśnie "darmowych" danych. Te dane przecież były "darmowe" bo nie ma jeszcze przepisów dotyczących ich komercjalizacji, a poza tym nikt nie wiedział,

pa6lo

JamesJoyce

28.11.2023, 14:51:12 via Wykop

@filozof900: Swoją drogą w kwestii regulacji na poziomie EU, powstał Letter of Concern "The EU AI Act needs
Foundation Model Regulation". W skrócie, naukowcy obawiają się, że Big Tech będzie chciał wyłączyć z regulacji tzw. podstawowe modele, czyli obecne llmy (to chyba odpowiedź na moją wątpliwość z poprzedniego komentarza). Nie jest tajemnicą, o czym już pisałem, że obecnie strategie badawcze koncentrują się raczej na małych modelach, które np. byłyby trenowane przy

pa6lo

filozof900

28.11.2023, 14:55:54 via Android

@JamesJoyce też się nad tym zastanawiałem, moim zdaniem będą w przyszłości protesty z tym związane i stanie się to problemem politycznym.

w przypadku zawodów kreatywnych to jest trochę niefortunne, że na owocach pracy setek tysięcy ludzi można stworzyć modele które później można komercyjnie (albo nawet i bezpłatnie) użyczać komuś, kto stanie się konkurencją dla oryginalnych autorów. tak jak mowisz nikt raczej świadomie sie na to nie pisał.

pa6lo

28.11.2023, 16:36:35 via Wykop

Te dane przecież były "darmowe" bo nie ma jeszcze przepisów dotyczących ich komercjalizacji,

@JamesJoyce: Nie znam się na prawie własności intelektualnej więc mogę jedynie gdybać. Obecnie mamy do czynienia usunięciem na żądanie, tj. będąc autorem dzieła musisz wysłać wniosek o wykluczenie ze zbioru. Ciekawe, czy i kiedy prawo zacznie wymagać ogarnięcia kwestii własności danych przed procesem trenowania modelu?

Następnie, czy prawo wystarczy, a może rozwiną się techniki anty-scrappingowe a z drugiej

vateras131

29.11.2023, 07:59:15 via Wykop

@pa6lo:
To jest chyba największy problem i kojarzy mi się z piractwem komputerowym na sterydach. W końcu tutaj nikt nie używa tych danych hobbystycznie do projektu, który schowa do szuflady tylko trenuje modele w celach komercyjnych. Bez tych danych narzędzie nie miałoby szans na taki sukces.

pa6lo

Need

29.11.2023, 08:31:34 via Wykop

@JamesJoyce:

Ja się zastanawiałem nad tym problemem (tak mi się wydaje), ale pod innym kątem. Kiedy większość contentu w sieci stanie się syntetyczna, a fejki będzie ciężko odróżnić lub będą nierozróżnialne od prawdy to w zasadzie efektem może być wycofanie się z życia internetowego przez ludzi i powrót w jakimś stopniu do rzeczywistości - albo to albo stworzenie spisu stron gdzie treści będą są humangenerated i jest to stricte kontrolowane przez

pa6lo

pa6lo

29.11.2023, 09:56:40 via Wykop

kojarzy mi się z piractwem komputerowym na sterydach.

@vateras131: Trafna uwaga. Zanim prawo ogarnie tę kwestię, to wiele podmiotów zdąży utuczyć się na kradzionym, jak dawniej handlarze z Grzybowskiej. Mając pierwsze modele gotowe, będą oni krzyczeć najgłośniej o etyce w AI i potrzebie regulacji dostępu do danych treningowych.

Dodatkowo sprawa z Deviant Art pokazuje potrzebę zmian w kwestii własności materiałów publikowanych przez użytkowników, do których serwis rości sobie wyłączne prawo.

Aktywne Wpisy

npbs

npbs +4

5 godz. i 37 min temu

Mirki i mirabelki książkowe mam pytanie:
Szukam czegoś do czytania dla chłopca lat 9, nie komiksy. Hary Potter przeczytany cały (dwa razy), dzienniki cwaniaczka oraz przygody Mikołajka wszystkie części - również. Magiczne drzewo nam nie podpasowało, opowieści z Narnii również nie siadły. Straszna historia (ci okropni Rzymianie itp.) tak sobie

Magiczne drzewo mamy chyba całą serię i w razie czego możemy się wynieść
#ksiazki #ksiazka #dzieci

Van-der-Ledre

Van-der-Ledre +35

4 godz. i 12 min temu

Nic nigdy nie złamałem ogółem, raz jedynie miałem kostkę skręconą lekko, bo źle stanąłem stumpką przy schodzeniu ze schodów. I to tyle. Większość ludzi coś tam miała złamane, a ja nigdy. Tak mało dynamiczny jestem.
#przegryw

Aktywne Wpisy

Aktywne Znaleziska

Blokada polsko-ukraińskiej granicy. Zapowiada ją jedna z rolniczych organizacji

70 tys. za doradzanie w czasach PiS. PZU zrywa umowę z rektorem UW

Terminal kontenerowy w Świnoujściu powstanie. Jest decyzja.

Rozpaczliwy stan stadniny w Janowie Podlaskim

Zakaz sprzedaży alkoholu na stacjach benzynowych

Popularne tagi