Wpis z mikrobloga

Hej, mam takie pytanie. Pracuje w finansach i będę się w najbliższej przyszłości zajmował się analizą kosztów - tzn. czy dany koszt (rozpoznawany po opisie transakcji) został prawidłowo skategoryzowany czy powinien trafić na do innej kategorii.
Jak myślicie, dałoby się to ogarnąć próbując NLP (z tego co widzę to do Pythona jest NLTK i spaCy) czy jednak to nie działa tak jak myślę?
Opis transakcji to najczęściej parę słów (1-5) i jest tam też trochę typowego korpo żargonu. Zakładam ze żargon nie będzie sprawiał problemów, bo powinno dać się robić ręczne poprawki na takie sytuacje. Mam też dostępną nazwę firmy, koszt itp, więc może jest jeszcze coś innego co by się nadało, ale opis transakcji powinien być głównym wyznacznikiem.
#python #machinelearning #nlp
  • 4
  • Odpowiedz
@Elkoss: W jakim języku są te opisy?
Jeżeli po angielsku to należałoby douczyć model BERT/RoBERTa - są odpowiedniki douczone na polskich korpusach i jeżeli opisy są po polsku to należałoby z nich skorzystać, te modele dobrze sobie radzą z problemem klasyfikacji :)
  • Odpowiedz
@MilionoweMultikonto: No o ile dobrze zrozumiałem, to NLP pozwala na rozbicie zdań na słowa kluczowe. W moim przypadku by się to sprawdziło w większości, gdyż koszty dotyczą z reguły jednej rzeczy - wydatki na pracowników (typu owocowe środy itd.), ale te wydatki mogą mieć więcej form, np paintball, czy coś takiego. Mam też słowa kluczowe, które w 100% zapewniają, że koszt jest źle sklasyfikowany. Więc myślę, że powinno się udać.

@
  • Odpowiedz