Wpis z mikrobloga

scrapowanie przeszlo pomyslnie, 2793 strony głównej z wykopaliskami, komentarzami, odpowiedziami do komentarzy + hashtagi, zawołania, nawet kolor nicka udało się wyciągnąć - łącznie jakieś 3,5gb danych do analizy ( ͡° ͜ʖ ͡°)

teraz pora na oczyszczenie danych i text mining komentarzy na wykopie ( ͡° ͜ʖ ͡°)

#dataisbeautiful #machinelearning #statystyka #python #apachespark #bigdata
Pobierz kodi1911 - scrapowanie przeszlo pomyslnie, 2793 strony głównej z wykopaliskami, komen...
źródło: comment_iHqByudjm3hG5YvdN42R9ngcjVtdGy12.jpg
  • 28
@Bouncer: tak, po raz pierwszy miałem z nimi styczność w C#, jak parsowałem strone z rozkładami jazdy pociągów skm, bo chciałem mieć aplikacje na windowsphone, która by wyświetlała rozkłady jazdy z najbliższej stacji. Kolejny raz jak zaczynałem ogarniac xpathy, to w momencie, gdy zaczynałem pisać swoja pracę magisterską, a potrzebowałem pobrać sporo danych giełdowych - napisałem parser (też w C#), który scrapuje dane historyczne kursów giełdowych.

Także, tak - xpath nad