Wpis z mikrobloga

Mirki chcę napisać crawlera, który chodzi po określonych stronach i wyciąga z nich określone informacje w określonych odstępach czasu (chodzi wg adresu URL i parametrów GET w URL). Chciałbym mieć możliwość ustalania co taki crawler ma odwiedzać, wskazywania które części strony mają być wyciągane i np. wrzucane do bazy danych czy pliku tekstowego.

Przykładowo, taki crawler wchodziłby na www.wykop.pl i wyciągał tytuł wpisu, autora, a następnie wchodził do danego wpisu i wyciągał najbardziej punktowaną odpowiedź (czyli parsowanie www.wykop.pl oraz znalezionych URL).

Kojarzy ktoś coś w tym kierunku, albo może polecić? Albo są już gotowe narzędzia, które da się jakoś sparametryzować?
Zasadniczo to byłoby coś jakby AdBlock/uBlock tylko działające w drugą stronę - nie blokujące części strony, tylko zapisujące gdzieś te części na dysku a ignorujące resztę.

#programowanie #naukaprogramowania #javascript #python #php #webdev #webstuff sorry jeżeli któryś tag użyłem nieprawidłowo
  • 9
  • Odpowiedz