@chlopiec_kucyk: @wojniz Tak przy okazji, wikipedia to tylko 4-5% danych na których był uczony najnowszy model LLaMA (Meta), który jest podobno lepszy niż ChatGPT.
Poniżej tabelka z artykułu opisującego LLaMA. Wbrew pozorom tej Wikipedii nie ma dużo pomimo że to aż 20 języków. CommonCrawl wnosi najwięcej do korpusu (3300 GB), chociaż też wiadomo że dobrej jakości tekst (ustrukturyzowany, gęsty w znaczenia, dobrej jakości językowej, etc...) taki jak
97gb lewackiej propagandy, a wszystko o świecie i tak można znaleźć w Biblii zajmującej zaledwie 5 megabajtów. Nawet bez grafiki, to jest dopiero kompresja. ;)
Hity
tygodnia
Zawiera treści 18+
Ta treść została oznaczona jako materiał kontrowersyjny lub dla dorosłych.
Komentarze (13)
najlepsze
@chlopiec_kucyk: @wojniz Tak przy okazji, wikipedia to tylko 4-5% danych na których był uczony najnowszy model LLaMA (Meta), który jest podobno lepszy niż ChatGPT.
Poniżej tabelka z artykułu opisującego LLaMA. Wbrew pozorom tej Wikipedii nie ma dużo pomimo że to aż 20 języków. CommonCrawl wnosi najwięcej do korpusu (3300 GB), chociaż też wiadomo że dobrej jakości tekst (ustrukturyzowany, gęsty w znaczenia, dobrej jakości językowej, etc...) taki jak
Cała wiedza świata zmieści się na nowoczesnym dysku ssd