Wpis z mikrobloga

Dostałem zlecenie na napisanie prostego crawlera na pewną stronkę. Problem w tym, że strona ta posiada zabezpieczenie, że po ~40 dowolnych wejść na stronę wywala captchę. Czy jest jakiś sposób na obejście tego? Nie chciałem poświęcać nadto czasu na coś, co prawdopodobnie się nie uda, ale blokada prawdopodobnie jest na IP i odświeża się dopiero po 24 godzinach. Aktualizować dane muszę regularnie, więc czekanie nie wchodzi w grę, vpn z masą adresów byłby ponad budżet klienta.
Jak taki Google indeksuje strony mające takie zabezpieczenia? Jest jakiś sposób na ominięcie tego?

#programowanie #webdev #php
  • 17
  • Odpowiedz
Problem w tym, że strona ta posiada zabezpieczenie, że po ~40 dowolnych wejść na stronę wywala captchę.


@Jurix: a w praktyce ile razy trzeba by wpisywać captchę, ile stron orientacyjnie crawlujesz - bo inaczej jeśli 200 stron musisz przeskanować codziennie, a inaczej jeśli 200000
  • Odpowiedz
@Jurix: trzebaby postawic to na jakimś pobocznym kompie (od biedy nawet coś formatu raspberry pi) podłączone pod najtańszy net komórkowy ze zmiennym ip, które resetowałoby połączenie i pobierało 40 stron.
  • Odpowiedz
@Marlboras: @Jurix: plus samo to, ze nie masz jsa evalowanego moze być problemem. Sprawdź tez czy to czysta captcha czy jakaś owijka + captcha np jak robi datadome. Wyedy 2captcha moze sobie nie poradzić.
Moze pomóc spojrzenie na to jak ustawiaja agenta w np puppeter stealth itp.
Czasami po prostu za dużo roboty.
  • Odpowiedz
@Jurix: smartproxy albo 2captcha, ustawiasz sobie w curl odpowiednie parametry które dostajesz od smartproxy i za każdym razem leci to przez ich IP, tylko oczywiście wiąże się to z dodatkowymi kosztami
  • Odpowiedz