Wpis z mikrobloga

@ponuryrolnik: Musisz jeszcze wziąć pod uwagę wszystkie znaki specjalne. Plus skróty językowe - "np." zakończone kropką.
W pythonie masz paczkę nltk do przetwarzania języka naturalnego, obczaj funkcję "word_tokenize". Powinna się przydac
  • Odpowiedz
@ponuryrolnik: ło jezu to widzę większa magia w tym zadaniu, nie zazdroszczę xd

No ja bym zrobił najpierw replace('_', ' ') a potem split().
A w kwestii słów to regex albo ręczne sprawdzanie znak po znaku każdego stringa i odpowiednie odfiltrowywanie ich :)
  • Odpowiedz
a da się używając filter() ignorować jakieś znaki?


@ponuryrolnik: ''.join([chr for chr in "abc'd_!" if chr not in "!@#$%^&*()_"])
Możesz też użyć str.translate.

trans = str.maketrans('', '', '~!@#$%^&*()_')
"abc'd_!".translate(trans)
  • Odpowiedz