Wpis z mikrobloga

Jako, że w pracy będziemy niedługo korzystać ze statystyki, analizy danych oraz ogólnie big data.
Postanowiłem się trochę tego poduczyć, jako danych do "zabawy" użyłem hmm... wykopu a konkretnie wpisów z mirko :)

Cóżem sprawdził?
Sprawdziłem które linki z youtube są najczęściej wstawiane, oto lista 10 najpopularniejszych linków wraz z oszacowaną ilością wystąpień:

Shira Choir Sings New Song At Bar Mitzvah | 924
Sandu Ciorba - Dalibomba | 827
The Coconut Song | 742
Wham! - Last Christmas | 576
Kavinsky - Nightcall | 516
Toto - Africa | 441
The Sound of Silence | 311
REMOVE KEBAB | 283
Rick Astley - Never Gonna Give You Up | 246
Stachursky - Dosko. | 217

Jest to głównie #muzyka co jest dosyć ciekawe bo nie ograniczałem skryptu pod tym względem.

Czym sprawdzałem?
Do wyliczeń użyłem skryptu napisanego w Pythonie oraz modułu Pandas.
Oczywiście wpierw musiałem pobrać próbkę danych do pliku csv co trwało w ciul długo... (jakieś kilka miesięcy)

Czy pojawią się jeszcze jakieś ciekawe statystyki dotyczące mirko?
To zależy od was, jeżeli chcecie abym od czasu do czasu coś wstawił to podsyłajcie pomysły. Może uda mi się wyliczyć coś ciekawego :)

Na koniec każdemu kto jest zainteresowany statystyką polecam blog http://prokulski.net/

BONUS
No i #!$%@?, no i cześć | 246

#ciekawostki #statystyka #python #programowanie #bigdata
  • 12
@Crisu: jeżeli chodzi o kod który pobrał dane to nic szczególnego, pętla while i odwiedzanie losowych adresów https://www.wykop.pl/wpis/xxxxxx gdzie pod xxxxxx podstawiasz ranom int, oczywiście zabezpieczenie przed duplikacją d w najprostszej formie czyli lista z użytymi już idkami jakiś sleep żeby nie pobierać za szybko bo wypok tego nie lubi.
Dalej parsujesz htmla żeby wyciągnąć interesujące Cię dane, zapisujesz je do pliku albo bazy danych i to wszystko :D To naprawdę
@Jumpererer: Zgadza się chodzi o to żeby zebrać jak najwięcej danych ze wszystkich okresów. Gdybym leciał iteracyjnie co n+1 lub n-1 zbierałbym dane liniowo względem daty dodania, mogłoby to wpłynąć na końcowy wynik. A w taki sposób mam dane z różnych okresów.

Oczywiście zarówno metoda iteracyjna jak i losowa są dobre. Jedno jest pewnie jak się je puści na wystarczająco długi czas to się zbierze wszystkie wpisy :D A wtedy to