Wpis z mikrobloga

#datascience #dataanalysis #statystyka #excel

Mam zadanie w pracy, z okolo 300 zapytan o informacje przychodzacych do firmy, wytypowac okolo 10 najczesciej wystepujacych. Zapytania przychodza do nas w postaci krotkiej wiadomosci mailowej niestaty nie sa standarwowe, czasm pytaja sie o jedna rzecz czasem o piec. Czasem jedno zdanie czasem lista. Wypakowalem wszystkie maile do plikow textowych i zastanawiam sie jak to teraz oporzadzic. Z dostepnych narzedzie na kompie w pracy tylko Excel :( Co poradzicie? Jak to ogarnac?
  • 8
@Bratek: To jest 300 maili, tak? Wydaje mi się, że dla tak małej ilości nie warto myśleć nad czymś bardzo mądrym tylko ręcznie zredagować tak, żeby zapytania o to samo brzmiały standardowo i później już to policzyć.
@r4do5:
@shodan56
och, nie chce tego robic recznie :( Juz bym w VBA w Excelu wczytal wszystkie wiadomosci do jednego arkusza (np w jedna kolumne) wrzucam kazde slowo do kolejnego wiersza w tej kolumnie az do konca wiadomosci, w tym samym czasie jak je wczytuje to w drugiej kolumnie kazdemu slowu danej wiadomosci nadaje unikalny numer. Wiec kazde slowo wczytane z wiadomosci 1, bedzie miec nadany numer 1. Dla slow w
@ShortyLookMean: to nie sa zapytania o przedmioty na magazynie, to sa zapytania o serwis, ile razy zrobiona taka a taka naprawe, kiedy naprawiono ten element w tamtym miejscu i ile to kosztowalo, ktore okolice (np ulice) byly najczesciej naprawiane dwa lata temu, jakie rok temu a jakie w tym roku... Ile spraw (inny rodzaj serwisu) ewentualnie trafilo do sadu...
Wiec kazde slowo wczytane z wiadomosci 1, bedzie miec nadany numer 1. Dla slow w wiadomosci 2, kazde slowo bedzie miec nadany numer 2.


@Bratek: to już blisko do LDA właśnie. W ten sposób tworzysz macierz DTM (document-term-matrix) czy tam TDM (term-document-matrix). Reszta to jakieś logarytmy zdaje się, trzeba doczytać.