Wykop.pl Wykop.pl
  • Główna
  • Wykopalisko226
  • Hity
  • Mikroblog
  • Zaloguj się
  • Zarejestruj się
Zaloguj się

Popularne tagi

  • #ciekawostki
  • #informacje
  • #technologia
  • #polska
  • #swiat
  • #motoryzacja
  • #podroze
  • #heheszki
  • #sport

Wykop

  • Ranking
  • Osiągnięcia
  • FAQ
  • O nas
  • Kontakt
  • Reklama
  • Regulamin

1

Web scrapping

Node.jsniezaleznie czy przy uzyciu selemnium/pupeteerchrome wykrywa, ze uzywam Bota, oczywiscie moge dac flage  Ale to tylko ignoruje pop-up a przegladarka i tak wie ze to "bot".I wchodzac na strone https://przegladarka-ekw.ms.gov.pl/eukw_prz/KsiegiWieczyste/wyszukiwanieKW?komunikaty=true&

tprazniewski
tprazniewski
tprazniewski
z
wykop.pl
dodany: 15.07.2023, 13:53:52
  • #
    we
  • #
    scrapping
  • 5
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Node.js
niezaleznie czy przy uzyciu selemnium/pupeteer
chrome wykrywa, ze uzywam Bota, oczywiscie moge dac flage 

ignoreDefaultArgs: ['--enable-automation'],

Ale to tylko ignoruje pop-up a przegladarka i tak wie ze to "bot".
I wchodzac na strone https://przegladarka-ekw.ms.gov.pl/eukw_prz/KsiegiWieczyste/wyszukiwanieKW?komunikaty=true&kontakt=true&okienkoSerwisowe=false

dostaje odpowiedz The requested URL was rejected. Please consult with your administrator. ;D

wie ktos jak sie z tym uporac ;D?

Komentarze (5)

najlepsze

sultan_de8ilow
sultan_de8ilow
15.07.2023, 15:25:53 via Wykop
  • 1
brakuje jakiegos headera, znajac zycie jezyk albo referer
headless: false w skrocie oznacza ze bedziesz widzial w przegladarce co sie o--------a a nie ze nie ma headerow
  • 2
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

tprazniewski
tprazniewski
tprazniewski
Autor
15.07.2023, 16:31:35 via Wykop
  • 0
@sultan_de8ilow: co do headless: false moze zle sie wyslowilem, ale mialem namysli doslownie to co mowisz ;D
Co do naglowkow to wlasnie nie do konca. Tu jest lista naglowkow z przegladarki ktora uruchamia pupeteer i nie wpuszcza mnie na dany link
tprazniewski - @sultan_de8ilow: co do headless: false moze zle sie wyslowilem, ale mi...

źródło: Screenshot 2023-07-15 at 18.30.23

Pobierz
  • Odpowiedz
tprazniewski
tprazniewski
tprazniewski
Autor
15.07.2023, 16:31:59 via Wykop
  • 0
@sultan_de8ilow: a tu lista naglowkow ktore wpuszczaja ;D
tprazniewski - @sultan_de8ilow: a tu lista naglowkow ktore wpuszczaja ;D

źródło: Screenshot 2023-07-15 at 18.31.46

Pobierz
  • Odpowiedz
sultan_de8ilow
sultan_de8ilow
15.07.2023, 13:58:25 via Wykop
  • 0
a co leci w headersach? jaki masz ua ustawiony?
  • 1
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

tprazniewski
tprazniewski
tprazniewski
Autor
15.07.2023, 14:50:06 via Wykop
  • 0
@sultan_de8ilow: Od siebie extra tylko ustawilem
User-Agent: 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Mobile Safari/537.36';

zrobilem headless: false
Czyli pupeteer odpala mi nowa instancje Chrome z "widokiem apki" ;D
wchodze na https://ekw.ms.gov.pl/eukw_ogol/menu.do (normalnie strona
  • Odpowiedz

Hity

tygodnia

Najładniejszy MOP w Polsce, doceńmy pracę Pań!
Najładniejszy MOP w Polsce, doceńmy pracę Pań!
3656
Mężczyzni zapłacą wyższe podatki niż kobiety.
Mężczyzni zapłacą wyższe podatki niż kobiety.
3640
I znowu psy: Cztery psy zagryzły 80-latka
I znowu psy: Cztery psy zagryzły 80-latka
3616
Czy coś wiadomo co u byłego sołtysa?
Czy coś wiadomo co u byłego sołtysa?
3290
Słynne Prince Polo XXL zmniejszyło gramaturę
Słynne Prince Polo XXL zmniejszyło gramaturę
2671
Pokaż więcej

Powiązane tagi

  • #wroclawiu
  • #eit
  • #krwi
  • #cant
  • #over
  • #wsi
  • #wf
  • #wegetarianizm
  • #web
  • #welldone
  • #f1
  • #lemans
  • #wo

Wykop © 2005-2025

  • O nas
  • Reklama
  • FAQ
  • Kontakt
  • Regulamin
  • Polityka prywatności i cookies
  • Hity
  • Ranking
  • Osiągnięcia
  • Changelog
  • więcej

RSS

  • Wykopane
  • Wykopalisko
  • Komentowane
  • Ustawienia prywatności

Regulamin

Reklama

Kontakt

O nas

FAQ

Osiągnięcia

Ranking