Podsumowanie mojej analizy interpretacji podatkowych z 2017 r.
https://www.wykop.pl/link/4627457/o-co-podatnicy-pytali-w-2017-r-interaktywny-wykres-punktowy/
Pokrótce:
1) interpretacje zostały podzielone na leksemy za pomocą biblioteki Morfeusz (biblioteka #python),
2) następnie na korpusie został zastosowany algorytm TF-IDF (z biblioteki scikit-learn) w celu uzyskania najbardziej charakterystycznych
https://www.wykop.pl/link/4627457/o-co-podatnicy-pytali-w-2017-r-interaktywny-wykres-punktowy/
Pokrótce:
1) interpretacje zostały podzielone na leksemy za pomocą biblioteki Morfeusz (biblioteka #python),
2) następnie na korpusie został zastosowany algorytm TF-IDF (z biblioteki scikit-learn) w celu uzyskania najbardziej charakterystycznych





https://aleteior.pl/wykorzystanie-tf-idf-w-analizie-interpretacji-podatkowych-czyli-jak-gaar-wybil-zeby-interpretacjom-podatkowym-w-2016-roku/
Jeśli masz lepszy algorytm, to będę wdzięczny za podesłanie inspiracji ;)
Częściowo TF-IDF wykorzystuje funkcję "count", ale dalsza jego część (ta "logarytmiczna") jest trochę bardziej złożona. Ma ona selekcjonować słowa najbardziej charakterystyczne dla każdego dokumentu. Charakterystyczne, czyli najbardziej odróżniające go od całego korpusu dokumentów, których ów dokument jest częścią.
W ten sposób można stwierdzić, że stosunkowo więcej interpretacji o uldze badawczo-rozwojowej było w roku 2017 niż 2016 r.