Aktywne Wpisy

MonazoPL +126
Ruszamy z kolejnym #rozdajo – wygraj kartę podarunkową do Allegro o wartości 100 zł!
Aby wziąć udział w konkursie, zaplusuj ten wpis oraz w komentarzu krótko odpowiedz na pytanie konkursowe: Jeśli wygrasz, na co wydasz (lub do czego dołożysz) to 100 zł? ( ͡~ ͜ʖ ͡°)
Przy okazji: jeśli potrzebujesz konta bankowego lub kiedykolwiek będziesz potrzebować, to pamiętaj, by zacząć od MONAZO.pl, gdzie znajdziesz aktualne Promocje bankowe – czyli
Aby wziąć udział w konkursie, zaplusuj ten wpis oraz w komentarzu krótko odpowiedz na pytanie konkursowe: Jeśli wygrasz, na co wydasz (lub do czego dołożysz) to 100 zł? ( ͡~ ͜ʖ ͡°)
Przy okazji: jeśli potrzebujesz konta bankowego lub kiedykolwiek będziesz potrzebować, to pamiętaj, by zacząć od MONAZO.pl, gdzie znajdziesz aktualne Promocje bankowe – czyli
źródło: promocje bankowe monazo
Pobierz
StraznikWiecznosci +127
Nocowanko typu skromnego dzisiaj było ( ͡º ͜ʖ͡º)
źródło: Screenshot_20260107_160716_Gallery
Pobierz




Dla wszystkich zainteresowanych data science/ai, 4 dni temu Karpathy wypuścił świetne video,
w którym pokazuje jak zbudować Tokenizer od zera.
https://youtu.be/zduSFxRajkE?si=TjRhcwFlxm2yvULH
Tokenizer to bardzo istotny element pipelinu nlp, który służy do konwertowania tekstu na sekwencję tokenów, tworzenia liczbowej reprezentacji tokenów i łączenia ich w tensory.
Prosty przykład zdania: "Wykopki to najlepsi ludzie pod słońcem"
Etap 1 (Podział na mniejsze części): "Wykopki", "to", "najlepsi", "ludzie", "pod", "słońcem"
Etap 2 (Przekształcenie na numery, tutaj fikcyjne, pochodzące z wytrenowanych wcześniej wielkich korpusów): "Wykopki" -> 12345, "to" -> 67, "najlepsi" -> 8910, "ludzie" -> 1112, "pod" -> 1314, "słońcem" -> 1516
Etap 3 (Dodanie specjalnych znaczników, pozwalają one na określenie początków i końców zdani): Początek zdania -> 101, Koniec zdania -> 102
Etap 4 (Wynik końcowy): 101, 12345, 67, 8910, 1112, 1314, 1516, 102
Podstawowy pipeline nlp, np. przy użyciu architektury Huggingface można sobie przeklikać tutaj:
https://colab.research.google.com/github/huggingface/notebooks/blob/main/transformers_doc/en/preprocessing.ipynb