Aktywne Wpisy
npbs +4
Mirki i mirabelki książkowe mam pytanie:
Szukam czegoś do czytania dla chłopca lat 9, nie komiksy. Hary Potter przeczytany cały (dwa razy), dzienniki cwaniaczka oraz przygody Mikołajka wszystkie części - również. Magiczne drzewo nam nie podpasowało, opowieści z Narnii również nie siadły. Straszna historia (ci okropni Rzymianie itp.) tak sobie
Magiczne drzewo mamy chyba całą serię i w razie czego możemy się wynieść
#ksiazki #ksiazka #dzieci
Szukam czegoś do czytania dla chłopca lat 9, nie komiksy. Hary Potter przeczytany cały (dwa razy), dzienniki cwaniaczka oraz przygody Mikołajka wszystkie części - również. Magiczne drzewo nam nie podpasowało, opowieści z Narnii również nie siadły. Straszna historia (ci okropni Rzymianie itp.) tak sobie
Magiczne drzewo mamy chyba całą serię i w razie czego możemy się wynieść
#ksiazki #ksiazka #dzieci
Van-der-Ledre +35
Nic nigdy nie złamałem ogółem, raz jedynie miałem kostkę skręconą lekko, bo źle stanąłem stumpką przy schodzeniu ze schodów. I to tyle. Większość ludzi coś tam miała złamane, a ja nigdy. Tak mało dynamiczny jestem.
#przegryw
#przegryw
Ciekawe jak google poradzi sobie z nawałnicą syntetycznego kontentu, który szturmuje internet od momentu udostępnienia ChatuGPT i kolejnych modeli. Faktem jest bowiem, że od połowy 2023 r. korpus ludzkiej wiedzy będzie musiał być traktowany zasadniczo inaczej niż przed 2023. Scrappowanie danych z mediów społecznościowych, google image czy czegokolwiek innego obecnie może zniszczyć cały utworzony dataset. Nie ma obecnie żadnego działającego dobrze sposobu na odróżnienie tekstu/obazu syntetycznego od prawdziwego.
Trenowanie modeli na sytnetycznych lub częściowo syntetycznych danych niestety nie działa tak dobrze, jak uważano.
Moim zdaniem watermarki typu "human generated" mogą sporo zyskać na wartości. Podobnie, jak, uwaga, uwaga, kod czy program lub inny obiekt informatyczny, przygotowany i supportowany przez ludzi. Kilka miesięcy Sam Harris zrobił ciekawy podcast, w którym występował Hinton i Marcus. Polecam serdecznie:
https://open.spotify.com/episode/2xRqt6pkQdJADMG4DWKaxL
Harris, moim zdaniem trafnie twierdzi, że w dobie wzrostu ilości syntetycznego tekstu wzrośnie znaczenie ekspertów dziedzinowych i ekspertyzy, bo tylko ona będzie w stanie wskazać granicę między rzeczywistością a halucynacjami llmów. Może więc wcale nie będzie tak źle, jak nam się wydaje? Kto to wie. Ja nie wiem.
Tak, w przypadku twórczości literackiej czy dziennikarskiej, gdzie autor czerpie z rzeczywistości, używając empatii i zmysłu obserwacji. Użycie narzędzi AI do przeformułowania zdania czy dobrania synonimu nie umniejsza wartości dzieła.
Porównajmy to z językiem marketingu, który współcześnie nie przekazuje żadnych informacji tylko puste komunikaty. Dla
@JamesJoyce: internet nawet bez syntetycznej zawartości jest pełny błędnych informacji ;-) ja na to patrzę w ten sposób, że LLM wytrenowane przy użyciu losowych danych pościąganych z internetu to raczej zabawka. zastosowanie znajdą te modele (nie tylko LLM), które zostaną wytrenowane przy użyciu oczyszczonych, wyselekcjonowanych, wysokiej jakości danych. nie będą też wtedy darmowe bo takie dane
@JamesJoyce: W przypadku stron, podejrzewam, że Google czy Bing będą rozwijać system reputacji źródeł. W przyszłości może być taki natłok treści syntetycznych, że nikt nie będzie chciał ich indeksować a uwzględnienie URI w rezultatach wyszukiwania będzie przywilejem. Może wtedy SEO jako dyscyplina będzie do czegoś przydatna?
Jeśli chodzi o datasety, to domyślam się, że era darmowych, tudzież "pożyczonych" danych dobiega końca
No i takie tematy to ja rozumiem czytać do kawki :)
Dzięki chłopaki, nie siedzę w ML, ale bardzo ciekawe to co piszecie.
Foundation Model Regulation". W skrócie, naukowcy obawiają się, że Big Tech będzie chciał wyłączyć z regulacji tzw. podstawowe modele, czyli obecne llmy (to chyba odpowiedź na moją wątpliwość z poprzedniego komentarza). Nie jest tajemnicą, o czym już pisałem, że obecnie strategie badawcze koncentrują się raczej na małych modelach, które np. byłyby trenowane przy
w przypadku zawodów kreatywnych to jest trochę niefortunne, że na owocach pracy setek tysięcy ludzi można stworzyć modele które później można komercyjnie (albo nawet i bezpłatnie) użyczać komuś, kto stanie się konkurencją dla oryginalnych autorów. tak jak mowisz nikt raczej świadomie sie na to nie pisał.
@JamesJoyce: Nie znam się na prawie własności intelektualnej więc mogę jedynie gdybać. Obecnie mamy do czynienia usunięciem na żądanie, tj. będąc autorem dzieła musisz wysłać wniosek o wykluczenie ze zbioru. Ciekawe, czy i kiedy prawo zacznie wymagać ogarnięcia kwestii własności danych przed procesem trenowania modelu?
Następnie, czy prawo wystarczy, a może rozwiną się techniki anty-scrappingowe a z drugiej
To jest chyba największy problem i kojarzy mi się z piractwem komputerowym na sterydach. W końcu tutaj nikt nie używa tych danych hobbystycznie do projektu, który schowa do szuflady tylko trenuje modele w celach komercyjnych. Bez tych danych narzędzie nie miałoby szans na taki sukces.
Ja się zastanawiałem nad tym problemem (tak mi się wydaje), ale pod innym kątem. Kiedy większość contentu w sieci stanie się syntetyczna, a fejki będzie ciężko odróżnić lub będą nierozróżnialne od prawdy to w zasadzie efektem może być wycofanie się z życia internetowego przez ludzi i powrót w jakimś stopniu do rzeczywistości - albo to albo stworzenie spisu stron gdzie treści będą są humangenerated i jest to stricte kontrolowane przez
@vateras131: Trafna uwaga. Zanim prawo ogarnie tę kwestię, to wiele podmiotów zdąży utuczyć się na kradzionym, jak dawniej handlarze z Grzybowskiej. Mając pierwsze modele gotowe, będą oni krzyczeć najgłośniej o etyce w AI i potrzebie regulacji dostępu do danych treningowych.
Dodatkowo sprawa z Deviant Art pokazuje potrzebę zmian w kwestii własności materiałów publikowanych przez użytkowników, do których serwis rości sobie wyłączne prawo.