Wpis z mikrobloga

nsfw

Zawiera treści NSFW

Ta treść została oznaczona jako materiał kontrowersyjny lub dla dorosłych.

W jaki spsób zbierasz metadane?


@JanuszOkrutnikWielki: używam API + samodzielnie napisanego crawlera, bo nie wszystko jest w API... (np. oglądalności tagów nie ma).

Całość pakuję do bazy MySQL. Miała być jakaś Cassandra, ale jednak poległem na noSQL - zbyt mała elastyczność wyciągania danych.

Ważne jest, abyś nie przetrzymywał treści wpisów nigdzie ponad 24h, bo to łamie regulamin wykopu.
Ja trzymam wszystko co się da, poza treścią (ale z treści wyliczam np.
a gdzie najlepsze #podrugiejstroniebajora autorstwa @Taco_Polaco


@miud: widocznie miał za mało opublikowanych wpisów. Jako granicę indeksacji wrzuciłem z tego co pamiętam ~200 wpisów na tagu. Mniejsze tagi nie były brane pod uwagę. Musiałem jakoś odsiać te dane, bo sporo miałem tego do przerobienia.

mysql> select count(1) from tags;
+----------+
| count(1) |
+----------+
| 165607 |
+----------+
1 row in set (0,12 sec)