Wpis z mikrobloga

@AlBundy95: lista artykułów z tvp.info. Indeksuje się co godzine i dorzuca nowe, unikatowo po tytule. Zbieram głosy czy coś jest propagandowe, czy nie.
W pełni anonimowo można zagłosować (co oznacza tez, że można oszukiwać ;)) ale jest to eksperyment for fun. Samo indeksowanie artykułów już zwróciło moją uwagę na ciekawe zabiegi ze strony redakcji
@AlBundy95:

jest jakieś API do zaciągnięcia?


Kiedyś będzie do zaciągnięcia całej bazy, na ten moment możesz sobie podejrzeć jak wyglądają requesty jak odpalisz stronę, i pewnie możesz z tego skorzystać, o ile Cloudflare Cie nie wytnie.

w jaki sposób indeksujesz (i w sumie w jakim celu)?

W prosty sposób, ale nie chcę dzielić się na ten moment konkretniej. Jest robot który co godzinę zasysa newsy i wkleja tylko te unikatowe względem
@AlBundy95: nie, mało czasu jest na klepanie tego, narazie skupiam się na dojechaniu do ~1k artykułów i ocenieniu 100% z nich, żeby zobaczyć czy już jakieś metody (typu np. naive bayes) dają wyniki, a potem może coś bardziej skomplikowanego, tf hub czy coś.