Jakoś powoli idzie mi nauka bigdata. Postanowiłem, że przeanalizuję sobie komentarze z reddita. Pobrałem około 30GB komentarzy z jednego miesiąca i przeanalizowałem 10 000 000 z nich. Trochę czasu mieliło na maszynie virtualnej. Jeden z przykładów:
Dajcie plusa dla Wiktorii Szydło reporterki radia Zet. Jako jedyna jest na miejscu i relacjonuje to co się dzieje we Wrocławiu o 4 rano #powodz #wroclaw
Jeden z przykładów:
Nazwa reddita i ile komentarzy dostało gold.
AskReddit;712
hiphopheads;161
pics;156
funny;136
videos;97
Metal;97
AdviceAnimals;97
nfl;86
todayilearned;70
WTF;62
IAmA;61
worldnews;58
CFB;55
news;52
hockey;47
dogecoin;40
explainlikeimfive;38
#bigdata #reddit
Tutaj link do tematu na którym są komentarze:
https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
https://www.reddit.com/r/datasets/comments/3icas8/reddit_july_comments_are_now_available/
Ogólnie Stuckinthe_Matrix ma sporo ciekawych rzeczy opublikowanych.