Wpis z mikrobloga

Jakoś powoli idzie mi nauka bigdata. Postanowiłem, że przeanalizuję sobie komentarze z reddita. Pobrałem około 30GB komentarzy z jednego miesiąca i przeanalizowałem 10 000 000 z nich. Trochę czasu mieliło na maszynie virtualnej.
Jeden z przykładów:

Nazwa reddita i ile komentarzy dostało gold.

AskReddit;712
hiphopheads;161
pics;156
funny;136
videos;97
Metal;97
AdviceAnimals;97
nfl;86
todayilearned;70
WTF;62
IAmA;61
worldnews;58
CFB;55
news;52
hockey;47
dogecoin;40
explainlikeimfive;38

#bigdata #reddit
  • 4
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@WincyjBroni: Udało mi się znaleźć na reddit gotowy plik z komentarzami z jednego miesiąca. Jeżeli chodzi o komentarze to istnieje API dzięki któremu można pobrać to wszystko. Dane udostępnia w json.
Tutaj link do tematu na którym są komentarze:
https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
https://www.reddit.com/r/datasets/comments/3icas8/reddit_july_comments_are_now_available/
Ogólnie Stuckinthe_Matrix ma sporo ciekawych rzeczy opublikowanych.
  • Odpowiedz