Język polski najlepszy w testach sztucznej inteligencji

Język polski najlepiej działającym językiem w długokonktekstowych (64K-128K tokenów) zadaniach NIAH, angielski dopiero na miejscu 6.

- #
- #
- #
- #
- #
- #
- 136
- Odpowiedz

Język polski najlepiej działającym językiem w długokonktekstowych (64K-128K tokenów) zadaniach NIAH, angielski dopiero na miejscu 6.

Komentarze (136)
najlepsze
źródło: eeb9b3bf4c688757f34741823399
PobierzSwoją drogą słucham czasem opowiadań sci-fi na YT i te tłumaczone z ang. mają ciekawą cechę mylą you z thou czyli Wy z Ty :P bardziej złożony 'gender' pomaga na przykład w określeniu z kontekstu podmiotu wypowiedzi
@martw: też jestem dyslektykiem. AI łatwiej sobie radzi z błędami w informacji niż z wnioskowaniem informacji z kontekstu. dalej jest lepiej jak napiszesz po polsku "Twuj" i "Wszasze" niż You i You ;)
A wynika to z tego, że język polski marnuje więcej tokenów niż chiński. Słowo, które po chińsku ma jeden token, po polsku ma:
- token na temat
- token na końcówkę fleksyjną (odmiana przez przypadki, czasy)
- token na przedrostek jeżeli to tryb dokonany
@Majkel2008: za to ja bym Ci nie zaliczył matury z polskiego ( ͡° ͜ʖ ͡°)
@munioman:
źródło: Screenshot_20251003_105240
PobierzNapisałem kiedyś biblioteke w pythonie do generowania pseudorandomowych wyrazów.
Wziąłem linuksowe słowniki różnych języków, angielski, niemiecki, fiński i jakieś inne, łącznie bodajże 6. Dla każdego z nich wykonałem taką operację:
Podzieliłem każdy wyraz na przeplatające się ze sobą grupy samogłoswoe i spółgłoskowe, a następnie skatalogowałem parametry każdego wyrazu - ilość grup, "parzystość", i prawdopodobiestwo wystąpienia każdej grupy na danej pozycji w wyrazie.
Okazało się, że składając nowe wyrazy ze