scrapowanie przeszlo pomyslnie, 2793 strony głównej z wykopaliskami, komentarzami, odpowiedziami do komentarzy + hashtagi, zawołania, nawet kolor nicka udało się wyciągnąć - łącznie jakieś 3,5gb danych do analizy ( ͡°͜ʖ͡°)
teraz pora na oczyszczenie danych i text mining komentarzy na wykopie ( ͡°͜ʖ͡°)
@morsik: wystawia, ale chciałem pobrać wszystko za jednym zamachem, zeby to wrzucić później do sparka @gorush: całkiem niedawno analizowałem treści artykułów wyborczej, naszego dziennika i super expressu - łącznie jakieś 50 tys. artykułów, zrobiłem aplikację z podsumowaniem wyników tej analizy http://104.154.23.20:3838/PolishMedia/
@kodi1911: no ja wiem, ale zrobienie pętli do API to chyba nie taki problem, a zdecydowanie łatwiej się potem czyta te dane niż zabawa w wyciąganie z DOM ( ͡°͜ʖ͡°)
@information_retriever: spytałeś jak wziął dane (ja rozumiem jako „jaką techniką”), a nie jakiego narzędzia użył ( ͡°͜ʖ͡°)
@Kajakiem_przez_Tybet: myślę, że z limitem nie byłoby problemu jakby się z @m__b dogadał ;) No ale drugi argument oczywiście sensowny; a i ja nie siedzę z API wykopowym. No ale niby aplikacje na Androida o niego są oparte, więc chyba wystarczająco dużo dostarcza…
@kodi1911: jak byś kiedyś potrzebował to zrobić na szybko, to wypróbuj rapidminer. W ogóle dużo jest tam funkcji, nie tylko do text miningu. No i darmowe :)
Śmierdzi mi to strasznie, że te bitki za chwilę się rozleją na większe terytorium. W skrócie śmierdzi na kilometr wojną światową, nie chce być złym prorokiem, ale następny rok będzie bombowy. #wojna #izrael #ukraina #palestyna
teraz pora na oczyszczenie danych i text mining komentarzy na wykopie ( ͡° ͜ʖ ͡°)
#dataisbeautiful #machinelearning #statystyka #python #apachespark #bigdata
@gorush: całkiem niedawno analizowałem treści artykułów wyborczej, naszego dziennika i super expressu - łącznie jakieś 50 tys. artykułów, zrobiłem aplikację z podsumowaniem wyników tej analizy
http://104.154.23.20:3838/PolishMedia/
@kodi1911: chyba bym się pochlastał. Tym bardziej, że używając API pewnie byś to w pół godziny ogarnął :D
@Kajakiem_przez_Tybet: myślę, że z limitem nie byłoby problemu jakby się z @m__b dogadał ;)
No ale drugi argument oczywiście sensowny; a i ja nie siedzę z API wykopowym. No ale niby aplikacje na Androida o niego są oparte, więc chyba wystarczająco dużo dostarcza…