@JanuszOkrutnikWielki: używam API + samodzielnie napisanego crawlera, bo nie wszystko jest w API... (np. oglądalności tagów nie ma).
Całość pakuję do bazy MySQL. Miała być jakaś Cassandra, ale jednak poległem na noSQL - zbyt mała elastyczność wyciągania danych.
Ważne jest, abyś nie przetrzymywał treści wpisów nigdzie ponad 24h, bo to łamie regulamin wykopu. Ja trzymam wszystko co się da, poza treścią (ale z treści wyliczam np.
@miud: widocznie miał za mało opublikowanych wpisów. Jako granicę indeksacji wrzuciłem z tego co pamiętam ~200 wpisów na tagu. Mniejsze tagi nie były brane pod uwagę. Musiałem jakoś odsiać te dane, bo sporo miałem tego do przerobienia.
mysql> select count(1) from tags; +----------+ | count(1) | +----------+ | 165607 | +----------+ 1 row in set (0,12 sec)
@MrBanana: to oficjalne API wykopu. Poszukaj w stopce w dziale "dla programistów". Jednak jak wspomniałem, niewiele użytecznych informacji da się z tego wyciągnąć.
@imlmpe: W czym najlepiej napisać takiego bota, który by pisał jakieś komentarze na twichu podczas streamu np nazwe lecącej piosenki. Da się tak w ogóle zrobić?
Przede wszystkim cebulowe oferty, moje wpisy ( #unknownews ) i programowanie (⌐ ͡■ ͜ʖ ͡■)
#wykop #statystyki #ciekawostki
źródło: comment_4SXyqjYYt5TgELFFlDfzqFUV8YwBXBMb.jpg
PobierzZawiera treści NSFW
Ta treść została oznaczona jako materiał kontrowersyjny lub dla dorosłych.
Komentarz usunięty przez autora
@JanuszOkrutnikWielki: używam API + samodzielnie napisanego crawlera, bo nie wszystko jest w API... (np. oglądalności tagów nie ma).
Całość pakuję do bazy MySQL. Miała być jakaś Cassandra, ale jednak poległem na noSQL - zbyt mała elastyczność wyciągania danych.
Ważne jest, abyś nie przetrzymywał treści wpisów nigdzie ponad 24h, bo to łamie regulamin wykopu.
Ja trzymam wszystko co się da, poza treścią (ale z treści wyliczam np.
a gdzie najlepsze #podrugiejstroniebajora autorstwa @Taco_Polaco
@miud: widocznie miał za mało opublikowanych wpisów. Jako granicę indeksacji wrzuciłem z tego co pamiętam ~200 wpisów na tagu. Mniejsze tagi nie były brane pod uwagę. Musiałem jakoś odsiać te dane, bo sporo miałem tego do przerobienia.
mysql> select count(1) from tags;
+----------+
| count(1) |
+----------+
| 165607 |
+----------+
1 row in set (0,12 sec)
Komentarz usunięty przez autora
@imlmpe: A skąd wziąłeś to API też sam napisałeś?