Wpis z mikrobloga

Czy 403 Access Denied zależy tylko od IP?

panowie, bo czegoś nie rozumiem...
mam potrzebę scrapowania jednej strony, html pobierany jest co sekunde, co skutkuje blokada na ip po okolo godzinie (serwer odsyła 403)
więc zmodyfikowalem skrypty tak aby leciały przez proxy (ściągam liste 10000 może z 2000 jest działających) więc load się ładnie rozkłada

i tak sobie scrapowałem dane przez dwa tygodnie az do teraz. kazde proxy zwaca 403, glowne ip zwraca 403 (z lokalnego komputera moge sie dostać do url)

jako, że serwerek mam na aws to zrobiłem stop/start dostał nowe ip i nadal 403

co jest? możliwe, że aws mnie przyblokował?

co zrobić aby nadal sobie latał po tym url?

#network #networking #sieci #siecikomputerowe #programowanie #aws
  • 6
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@gromwell: Nie siędzę w pythonie, ale zakładam, że podobnie jak i w innych językach musisz ustawić header zapytania get, tak aby przypominał wizytę normalnej przeglądarki, a nie ewidentnie bota tak jak pewnie jest teraz.
https://stackoverflow.com/questions/6260457/using-headers-with-the-python-requests-librarys-get-method

jakie headers ustawić? Te powinny wystarczyć:
https://www.whatismybrowser.com/detect/what-http-headers-is-my-browser-sending
  • Odpowiedz