Aktywne Wpisy

Jagoo +14
Łódź summer festiwal, nie wiem ile ludzi przyszło, ale godzinę temu przestali wpuszczać ludzi xd
#lodz #lodzsummerfestival #imprezy
#lodz #lodzsummerfestival #imprezy
źródło: temp_file633976299755869937
Pobierz
Czy jesteście za zakazem sprzedaży alkoholu po 22.00?
- TAK 63.4% (83)
- NIE 36.6% (48)





Ciekawe jak google poradzi sobie z nawałnicą syntetycznego kontentu, który szturmuje internet od momentu udostępnienia ChatuGPT i kolejnych modeli. Faktem jest bowiem, że od połowy 2023 r. korpus ludzkiej wiedzy będzie musiał być traktowany zasadniczo inaczej niż przed 2023. Scrappowanie danych z mediów społecznościowych, google image czy czegokolwiek innego obecnie może zniszczyć cały utworzony dataset. Nie ma obecnie żadnego działającego dobrze sposobu na odróżnienie tekstu/obazu syntetycznego od prawdziwego.
Trenowanie modeli na sytnetycznych lub częściowo syntetycznych danych niestety nie działa tak dobrze, jak uważano.
Moim zdaniem watermarki typu "human generated" mogą sporo zyskać na wartości. Podobnie, jak, uwaga, uwaga, kod czy program lub inny obiekt informatyczny, przygotowany i supportowany przez ludzi. Kilka miesięcy Sam Harris zrobił ciekawy podcast, w którym występował Hinton i Marcus. Polecam serdecznie:
https://open.spotify.com/episode/2xRqt6pkQdJADMG4DWKaxL
Harris, moim zdaniem trafnie twierdzi, że w dobie wzrostu ilości syntetycznego tekstu wzrośnie znaczenie ekspertów dziedzinowych i ekspertyzy, bo tylko ona będzie w stanie wskazać granicę między rzeczywistością a halucynacjami llmów. Może więc wcale nie będzie tak źle, jak nam się wydaje? Kto to wie. Ja nie wiem.
Tak, w przypadku twórczości literackiej czy dziennikarskiej, gdzie autor czerpie z rzeczywistości, używając empatii i zmysłu obserwacji. Użycie narzędzi AI do przeformułowania zdania czy dobrania synonimu nie umniejsza wartości dzieła.
Porównajmy to z językiem marketingu, który współcześnie nie przekazuje żadnych informacji tylko puste komunikaty. Dla odbiorcy taki
@JamesJoyce: internet nawet bez syntetycznej zawartości jest pełny błędnych informacji ;-) ja na to patrzę w ten sposób, że LLM wytrenowane przy użyciu losowych danych pościąganych z internetu to raczej zabawka. zastosowanie znajdą te modele (nie tylko LLM), które zostaną wytrenowane przy użyciu oczyszczonych, wyselekcjonowanych, wysokiej jakości danych. nie będą też wtedy darmowe bo takie
@JamesJoyce: W przypadku stron, podejrzewam, że Google czy Bing będą rozwijać system reputacji źródeł. W przyszłości może być taki natłok treści syntetycznych, że nikt nie będzie chciał ich indeksować a uwzględnienie URI w rezultatach wyszukiwania będzie przywilejem. Może wtedy SEO jako dyscyplina będzie do czegoś przydatna?
Jeśli chodzi o datasety, to domyślam się, że era darmowych, tudzież "pożyczonych" danych dobiega
No i takie tematy to ja rozumiem czytać do kawki :)
Dzięki chłopaki, nie siedzę w ML, ale bardzo ciekawe to co piszecie.
Foundation Model Regulation". W skrócie, naukowcy obawiają się, że Big Tech będzie chciał wyłączyć z regulacji tzw. podstawowe modele, czyli obecne llmy (to chyba odpowiedź na moją wątpliwość z poprzedniego komentarza). Nie jest tajemnicą, o czym już pisałem, że obecnie strategie badawcze koncentrują się raczej na małych modelach, które np. byłyby trenowane
w przypadku zawodów kreatywnych to jest trochę niefortunne, że na owocach pracy setek tysięcy ludzi można stworzyć modele które później można komercyjnie (albo nawet i bezpłatnie) użyczać komuś, kto stanie się konkurencją dla oryginalnych autorów. tak jak mowisz nikt raczej świadomie sie na to nie pisał.
To jest chyba największy problem i kojarzy mi się z piractwem komputerowym na sterydach. W końcu tutaj nikt nie używa tych danych hobbystycznie do projektu, który schowa do szuflady tylko trenuje modele w celach komercyjnych. Bez tych danych narzędzie nie miałoby szans na taki sukces.
Ja się zastanawiałem nad tym problemem (tak mi się wydaje), ale pod innym kątem. Kiedy większość contentu w sieci stanie się syntetyczna, a fejki będzie ciężko odróżnić lub będą nierozróżnialne od prawdy to w zasadzie efektem może być wycofanie się z życia internetowego przez ludzi i powrót w jakimś stopniu do rzeczywistości - albo to albo stworzenie spisu stron gdzie treści będą są humangenerated i jest to stricte kontrolowane
@vateras131: Trafna uwaga. Zanim prawo ogarnie tę kwestię, to wiele podmiotów zdąży utuczyć się na kradzionym, jak dawniej handlarze z Grzybowskiej. Mając pierwsze modele gotowe, będą oni krzyczeć najgłośniej o etyce w AI i potrzebie regulacji dostępu do danych treningowych.
Dodatkowo sprawa z Deviant Art pokazuje potrzebę zmian w kwestii własności materiałów publikowanych przez użytkowników, do których serwis rości sobie wyłączne prawo.