Podsumowanie mojej analizy interpretacji podatkowych z 2017 r.
https://www.wykop.pl/link/4627457/o-co-podatnicy-pytali-w-2017-r-interaktywny-wykres-punktowy/
Pokrótce:
1) interpretacje zostały podzielone na leksemy za pomocą biblioteki Morfeusz (biblioteka #python),
2) następnie na korpusie został zastosowany algorytm TF-IDF (z biblioteki scikit-learn) w celu uzyskania najbardziej charakterystycznych słów,
3) po dokonaniu wyboru 100 najbardziej charakterystycznych słów dla każdej interpretacji, porównałem za pomocą biblioteki scattertext lata 2016 i 2017 za pomocą wskaźnika fscore.
Sam interaktywny wykres punktowy został wykonany w Tableau
https://www.wykop.pl/link/4627457/o-co-podatnicy-pytali-w-2017-r-interaktywny-wykres-punktowy/
Pokrótce:
1) interpretacje zostały podzielone na leksemy za pomocą biblioteki Morfeusz (biblioteka #python),
2) następnie na korpusie został zastosowany algorytm TF-IDF (z biblioteki scikit-learn) w celu uzyskania najbardziej charakterystycznych słów,
3) po dokonaniu wyboru 100 najbardziej charakterystycznych słów dla każdej interpretacji, porównałem za pomocą biblioteki scattertext lata 2016 i 2017 za pomocą wskaźnika fscore.
Sam interaktywny wykres punktowy został wykonany w Tableau
https://aleteior.pl/wykorzystanie-tf-idf-w-analizie-interpretacji-podatkowych-czyli-jak-gaar-wybil-zeby-interpretacjom-podatkowym-w-2016-roku/
Jeśli masz lepszy algorytm, to będę wdzięczny za podesłanie inspiracji ;)
Częściowo TF-IDF wykorzystuje funkcję "count", ale dalsza jego część (ta "logarytmiczna") jest trochę bardziej złożona. Ma ona selekcjonować słowa najbardziej charakterystyczne dla każdego dokumentu. Charakterystyczne, czyli najbardziej odróżniające go od całego korpusu dokumentów, których ów dokument jest częścią.
W ten sposób można stwierdzić, że stosunkowo więcej interpretacji o uldze badawczo-rozwojowej było w roku 2017 niż 2016 r.