Wpis z mikrobloga

Skopiuj link

06.02.2021, 17:35:31

Dostałem zlecenie na napisanie prostego crawlera na pewną stronkę. Problem w tym, że strona ta posiada zabezpieczenie, że po ~40 dowolnych wejść na stronę wywala captchę. Czy jest jakiś sposób na obejście tego? Nie chciałem poświęcać nadto czasu na coś, co prawdopodobnie się nie uda, ale blokada prawdopodobnie jest na IP i odświeża się dopiero po 24 godzinach. Aktualizować dane muszę regularnie, więc czekanie nie wchodzi w grę, vpn z masą adresów byłby ponad budżet klienta.
Jak taki Google indeksuje strony mające takie zabezpieczenia? Jest jakiś sposób na ominięcie tego?

#programowanie #webdev #php

@Jurix: proxy?

@Jurix: Może dla googla robią wyjątek, próbowałeś user-agent googlebota?

hanksters

06.02.2021, 17:38:42

@Jurix: to zmień useragent na Googlebota i zobacz jak zareaguje.

kubako

06.02.2021, 17:39:30

Problem w tym, że strona ta posiada zabezpieczenie, że po ~40 dowolnych wejść na stronę wywala captchę.

@Jurix: a w praktyce ile razy trzeba by wpisywać captchę, ile stron orientacyjnie crawlujesz - bo inaczej jeśli 200 stron musisz przeskanować codziennie, a inaczej jeśli 200000

Soothsayer

06.02.2021, 17:39:37

@Jurix: czyli co, jak odświeżysz stronę 40 razy w przeglądarce to też się zablokuje?

Jurix

06.02.2021, 17:40:35

@Lipathor: @hanksters: próbuję
@kubako: Duża liczba, myślałem nad tym, odpada.
@Soothsayer: Tak.

kubako

06.02.2021, 17:44:49

@Jurix: trzebaby postawic to na jakimś pobocznym kompie (od biedy nawet coś formatu raspberry pi) podłączone pod najtańszy net komórkowy ze zmiennym ip, które resetowałoby połączenie i pobierało 40 stron.

hanksters

06.02.2021, 17:45:45

@Jurix: a jak proxy to zobacz jeszcze proxy 4G.

Jurix

06.02.2021, 18:22:13

@Lipathor: @hanksters: @kubako: @Soothsayer: Google chyba nie działa (chyba że robię coś źle).

Wrzuciłem w postmana request (picrel), dałem nagłówek z user agent na google i i tak wywala :/ Robię coś źle? Czy po prostu mają kompletnie to zablokowane?

Requesty puszczałem curlem, więc to nie cookies czy coś.

Lipathor

06.02.2021, 18:24:38

@Jurix: wygląda ok, widać olewają googla

Jurix

06.02.2021, 18:32:53

@spaduwa_mam_robote: @hanksters: @Lipathor: W jaki sposób mógłbym zaimplementować proxy? Na czym to miałoby polegać? Musiałbym płacić za to jak za vpn?

Lipathor

06.02.2021, 18:39:27

@Jurix: w necie można znaleźć serwery proxy darmowe, zdaje się jest opcja do cURL do ustawienia serwera proxy

spaduwa_mam_robote

06.02.2021, 18:53:56

@Jurix: Najlepiej byłoby zapłacić za proxy, ale nie polecę nic, bo nie znam. Te darmowe są słabe, ale możesz spróbować: https://www.blackhatworld.com/forums/proxy-lists.103/ (wchodź na ostatnią stronę danego threada) - najlepiej do tego dopisać sobie tester, który sprawdza, które działają, a które nie.

spaduwa_mam_robote

06.02.2021, 18:55:11

@Jurix: tutaj masz przykładowy tester: https://github.com/sonerb/Python-Proxy-Tester - ale jest ich w uj jak wpiszesz proxy tester [język] github

EDIT:
nawet możesz se online sprawdzić: https://proxy6.net/en/checker

Marlboras

07.02.2021, 00:03:59

@Jurix: 2captcha, 1k recpatchy od google za 3 usd

kmi3c

07.02.2021, 08:53:12

@Marlboras: @Jurix: plus samo to, ze nie masz jsa evalowanego moze być problemem. Sprawdź tez czy to czysta captcha czy jakaś owijka + captcha np jak robi datadome. Wyedy 2captcha moze sobie nie poradzić.
Moze pomóc spojrzenie na to jak ustawiaja agenta w np puppeter stealth itp.
Czasami po prostu za dużo roboty.

Jurigag

08.02.2021, 20:51:42

@Jurix: smartproxy albo 2captcha, ustawiasz sobie w curl odpowiednie parametry które dostajesz od smartproxy i za każdym razem leci to przez ich IP, tylko oczywiście wiąże się to z dodatkowymi kosztami

Aktywne Wpisy

mirko_anonim

mirko_anonim +3

3 godz. i 13 min temu

✨️ Obserwuj #mirkoanonim
Ja 32 lvl w tym roku. Moja #rozowypasek skończyła 28. Jesteśmy ze sobą od 2 lat. Mieliście już rozmowę o dzieciach? Jak przez to przebrnąć? Moja cały czas naciska, że ją już praca w banku męczy. Chce bachora, bo nie wie ile jej jeszcze placówka będzie działać, bo jej zegar biologiczny tyka, bo dziecko po 30 to będzie z downem itp. #!$%@? mnie to już, bo nie jestem na

Rozejść się?

Tak 61.8% (416)
Nie 7.4% (50)
Zrobić bachora 16.3% (110)
Zrobić bachora później i przetrwać gadanie 14.4% (97)

Teuvo

Teuvo +296

4 godz. i 1 min temu

#wykop przywróćcie plusujących na wierzch na wersji webowej tak jak było wcześniej, biauek kogoś ty zatrudnił, cholerne gamonie to się w głowie nie mieści co wy robicie z tym portalem (╯°□°）╯︵ ┻━┻

Teuvo - #wykop przywróćcie plusujących na wierzch na wersji webowej tak jak było wcze... — **źródło:** ios_large_1450286011_image
Pobierz

Aktywne Wpisy

Rozejść się?

Aktywne Znaleziska

Do Rzeczy o komisji Macierewicza: Osiem lat wodzenia za nos. Piekło zamarzło.

Polski Homar-K strzela!

Samozaoranie Borysa Budki z PO

A to niespodzianka...

Wojciech Szewko wyśmiewa polskich polityków na antenie Polsat News

Popularne tagi