Wpis z mikrobloga

#anonimowemirkowyznania
Cześć, z góry zaznaczam, że nie mam konta na wykopie i nie mam się kogo poradzić. Od razu podam tagi #programowanie #naukaprogramowania #python #scraping #webscraping

Wymyśliłem sobie taki plan. Zapytacie się jaki? Kurna sprytny.( ͡° ͜ʖ ͡°) Chciałbym scrapować nazwy produktów+ceny tych produktów. Słabo się znam na programowaniu, ale myślę, że ogarnę na podstawie filmików na yt i nauczę się czegoś przydatnego. Chodzi o inną kwestię, wyczytałem w internecie, że za webscraping można dostać bana na ip za zbyt dużo zapytań na stronę. Niby mam częściowo zmienne ip(trzecia i czwarta liczba w ip zmienia się poprzez reset routera, ale boję się o bana na zakres ip(cs 1.6 #pdk) I tutaj mam parę pytań:
1. Zamierzam scrapować ok 50 produktów i ich ceny z jednego linku(w sumie ok 600 produktów=12 linków do poszczególnej listy produktów i cen; 6-8 domen). Oznacza to, że odpalając pythona z jednym url i pobieraniem 100 danych, strona będzie widzieć to jako 1 request czy 100 requestów(bo pod jednym url pobieram 50 nazw i 50 cen)?
2. Wyczytałem również, że można zabezpieczyć się poprzez proxy. Stawiać linuxa mint i proxychaining na wirtualnej maszynie? Czy tylko zmiana ip i user-agent w kodzie pythona? Czy olać to bo i tak zmienne ip?
Strony w swoich regulaminach zabraniają takich rzeczy, ale cebula here, inflacja, nauka czegoś nowego itp.
Nie zamierzam atakować stron non stop, raz dziennie wystarczy z kilkunastosekundową przerwą między linkami)
Thank you from the mountains

---
Kliknij tutaj, aby odpowiedzieć w tym wątku anonimowo
Kliknij tutaj, aby wysłać OPowi anonimową wiadomość prywatną
ID: #62d2f16992022bdb5cf1d621
Post dodany za pomocą skryptu AnonimoweMirkoWyznania ( https://mirkowyznania.eu ) Zaakceptował: karmelkowa
Wesprzyj projekt
  • 5
  • Odpowiedz
via Wykop Mobilny (Android)
  • 0
@AnonimoweMirkoWyznania:
1. Załóż konto albo spi*****aj, mirkowyznania to nie pogotowie programistyczne dla pasożytów.

@karmelkowa Ja źle interpretuję "Napisz co leży Ci na sercu", czy o co chodzi? Co tutaj jest takiego, że ziomek nie mógłby założyć konta i zapytać? Rozumiem jak jest jakaś afera i kogoś zbanowali, a potem komunikuje się z "zewnątrz" w ten sposób, no ale bez przesady.
  • Odpowiedz
odpalając pythona z jednym url i pobieraniem 100 danych, strona będzie widzieć to jako 1 request czy 100 requestów(bo pod jednym url pobieram 50 nazw i 50 cen)


@AnonimoweMirkoWyznania: no oczywiste jest że jedno odwołanie to jeden request a nie 100

odwołaj się przez selenium lub coś podobnego, dla serwera będzie to widoczne jak normalne odwołanie przez zwykłego
  • Odpowiedz
@wiesiu2:

odwołaj się przez selenium lub coś podobnego, dla serwera będzie to widoczne jak normalne odwołanie przez zwykłego usera


Niektóre strony (sklepy) banują jeżeli masz "nienaturalny" ruch, wrzucą ci captche albo
  • Odpowiedz
Taki co ściąga np. 300tys. produktów z rozbiciem na lokalizacje czyli łącznie +2 mln produktów per sklep w 24h? Jak tak to pisz na pw.


@lol3pdg: takiego nie pisałem, ale nie powinno być to zbyt skomplikowane, teoretycznie potrzeba wiele serwerów z zainstalowanym i dobrze skonfigurowanym sock5, do tego soft który łączy się przez tak skonfigurowane proxy.
Kiedyś analizowaliśmy jeden tego typu projekt aby go zrobić w oparciu o routery Teltonika,
  • Odpowiedz