#requests

26.04.2021, 10:41:12

1

Hejka mirki mam pytanko #programowanie

Mam bota co zbiera sobie pewne informacje z różnych stron i w tym celu raz dziennie wysyła zapytanie i dzisiaj jedna strona zamiast zwrócić mi interesujące mnie dane daje mi #captcha. Pytanko jak to ominąć, ponieważ wchodząc na stronę z poziomu przeglądarki wszystko działa, więc jakaś blokada na ip odpada a zapytanie do strony wysłam ze swoim user-agent (taki sam jak tej

LazyInitializationException

26.04.2021, 10:46:20

2

Komentarz usunięty przez moderatora

SzatanDiabel

26.04.2021, 17:08:04

0

@h00k: Można też rozwiązać captche np. 2captcha.com

malostkowy

29.01.2019, 00:17:47

2

Hejka,uczę się pisania web crawlerów i mam problem z #beautifulsoup, a dokładnie z tym by zaciągnąć większą ilość danych gdy są one na stronie pobierane w tle (ajax?) tak jak w przypadku wykopu.
Gdy zaciągam źródło strony ładowane jest 50 pierwszych znalezisk dla danego tagu,więcej ładuje się po zescrollowaniu strony.
Co zrobić żeby załadować więcej znalezisk ? Do pobrania zawartości używam freamworka #requests

krótki kod tego co nabazgrałem: https://pastebin.pl/view/1677c573
bądźcie wyrozumiali,

brakslow

29.01.2019, 05:58:46

1

@malostkowy: jeśli to jakiś ajax to możesz użyć selenium. Jeśli tylko adres się zmienia, tak jak na wykopie, czyli wykop.pl/strona/2 to w pętli for podawaj kolejne adresy strony 2/3/4 itd