Wpis z mikrobloga

Skopiuj link

04.12.2019, 21:28:56

#datascience #dataanalysis #statystyka #excel

Mam zadanie w pracy, z okolo 300 zapytan o informacje przychodzacych do firmy, wytypowac okolo 10 najczesciej wystepujacych. Zapytania przychodza do nas w postaci krotkiej wiadomosci mailowej niestaty nie sa standarwowe, czasm pytaja sie o jedna rzecz czasem o piec. Czasem jedno zdanie czasem lista. Wypakowalem wszystkie maile do plikow textowych i zastanawiam sie jak to teraz oporzadzic. Z dostepnych narzedzie na kompie w pracy tylko Excel :( Co poradzicie? Jak to ogarnac?

r4do5

04.12.2019, 21:33:56

@Bratek: To jest 300 maili, tak? Wydaje mi się, że dla tak małej ilości nie warto myśleć nad czymś bardzo mądrym tylko ręcznie zredagować tak, żeby zapytania o to samo brzmiały standardowo i później już to policzyć.

S.....6

konto usunięte 04.12.2019, 21:38:28 via Wykop Mobilny (Android)

@Bratek: nie wiem, tak na logikę to każdemu rodzajowi zapytania przypisać numer i potem policzyć których numerów jest najwięcej

Bratek

04.12.2019, 22:01:12

@r4do5:
@shodan56
och, nie chce tego robic recznie :( Juz bym w VBA w Excelu wczytal wszystkie wiadomosci do jednego arkusza (np w jedna kolumne) wrzucam kazde slowo do kolejnego wiersza w tej kolumnie az do konca wiadomosci, w tym samym czasie jak je wczytuje to w drugiej kolumnie kazdemu slowu danej wiadomosci nadaje unikalny numer. Wiec kazde slowo wczytane z wiadomosci 1, bedzie miec nadany numer 1. Dla

ShortyLookMean

05.12.2019, 09:09:54

@Bratek: ja bym liczył tylko pierwsze wystąpienie danego słowa w e-mailu. Bo z tego co rozumiem nie zamawia się u was na sztuki.

Bratek

05.12.2019, 10:17:17

@ShortyLookMean: to nie sa zapytania o przedmioty na magazynie, to sa zapytania o serwis, ile razy zrobiona taka a taka naprawe, kiedy naprawiono ten element w tamtym miejscu i ile to kosztowalo, ktore okolice (np ulice) byly najczesciej naprawiane dwa lata temu, jakie rok temu a jakie w tym roku... Ile spraw (inny rodzaj serwisu) ewentualnie trafilo do sadu...

SIerraPapa

05.12.2019, 12:01:14

@Bratek: No to nadać mailom cechy i zliczyć ręcznie. 300 to nie dramat, po drodze zauważysz zależności i unikaty i będziesz miał podstawę do zautomatyzowania.

lemur_78

05.12.2019, 13:28:36

Zrobiłbym prostą analizę z określeniem tematów (topic modeling, LDA) i zobaczył jaki jest wynik -> https://blog.prokulski.science/index.php/2017/09/14/analiza-tekstow-z-wiadomosci/#topic-modeling
No, ale Excel...

lemur_78

05.12.2019, 13:30:37

Wiec kazde slowo wczytane z wiadomosci 1, bedzie miec nadany numer 1. Dla slow w wiadomosci 2, kazde slowo bedzie miec nadany numer 2.

@Bratek: to już blisko do LDA właśnie. W ten sposób tworzysz macierz DTM (document-term-matrix) czy tam TDM (term-document-matrix). Reszta to jakieś logarytmy zdaje się, trzeba doczytać.

Aktywne Wpisy

ToxycznyKarol

ToxycznyKarol +30

6 godz. i 4 min temu

Dlaczego na Mirko cicho o wywiadzie lekarza sygnalisty u Stanowskiego w godzinie zero? Jeżeli to prawda to mamy aferę na miarę łowców skór a Trzaskowski powinien zniknąć z życia publicznego na zawsze wraz ze swoją świtą. Żadego campusu a nawet wywiadu do końca życia. Młody lekarz do ciupy na 10 lat co najmniej. To się w pale nie mieści! Myślę jednak że sygnalista może skończyć jak Petelicki który krytykował Tuska. Mamy taki

ToxycznyKarol - Dlaczego na Mirko cicho o wywiadzie lekarza sygnalisty u Stanowskiego...

HowardWKR

HowardWKR +11

5 godz. i 26 min temu

P------e jest istnienie transmisji z kamery na ławkę XD Po c--j ktoś by miał to oglądać? I jeszcze ci trenerzy mają na bani, że cały czas jest kamera centralnie na nich #mecz