Hejka mirki mam pytanko #programowanie

Mam bota co zbiera sobie pewne informacje z różnych stron i w tym celu raz dziennie wysyła zapytanie i dzisiaj jedna strona zamiast zwrócić mi interesujące mnie dane daje mi #captcha. Pytanko jak to ominąć, ponieważ wchodząc na stronę z poziomu przeglądarki wszystko działa, więc jakaś blokada na ip odpada a zapytanie do strony wysłam ze swoim user-agent (taki sam jak tej
  • 5
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Hejka,uczę się pisania web crawlerów i mam problem z #beautifulsoup, a dokładnie z tym by zaciągnąć większą ilość danych gdy są one na stronie pobierane w tle (ajax?) tak jak w przypadku wykopu.
Gdy zaciągam źródło strony ładowane jest 50 pierwszych znalezisk dla danego tagu,więcej ładuje się po zescrollowaniu strony.
Co zrobić żeby załadować więcej znalezisk ? Do pobrania zawartości używam freamworka #requests

krótki kod tego co nabazgrałem: https://pastebin.pl/view/1677c573
bądźcie wyrozumiali,
  • 5
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@malostkowy: jeśli to jakiś ajax to możesz użyć selenium. Jeśli tylko adres się zmienia, tak jak na wykopie, czyli wykop.pl/strona/2 to w pętli for podawaj kolejne adresy strony 2/3/4 itd
  • Odpowiedz