#webscraping

18.04.2024, 14:50:31

1

Robię apkę w pythonie, która scrapuje jedną ze stron. Za zgodą admina, ale rzucił we mnie reCAPTCHA i napisał, żebym ograniczył liczbę logowań i korzystał z ciasteczka, które jest ważne przez godzinę.
Do logowania i poruszania się po stronie używam Mechanize. Wyczytałem, że Mechanize automatycznie przechowuje ciasteczka. Apkę mam napisaną obiektowo i rzeczywiście w każdej klasie oddzielnie inicjowałem mechanize.browser() logując się ponownie. Wymyśliłem, że zaloguję się raz, a potem będę starał się utrzymać tę sesję przy życiu odwołując się do niej z każdego miejsca apki, o tak:
https://pastebin.com/0uwyMJLZ
Pytania:
1. Czy to w ogóle prawidłowe podejście?
2. Jeśli tak, to podpowiecie może sposób w jaki najlepiej by to było przetestować, zanim napiszę adminowi, że zmieniłem poprawiłem i żeby zdjął reCAPTCHE?

lubie_placki777

18.04.2024, 18:50:49 via Wykop

1

@Drmscape2:
1. Wg mojego ograniczonego doświadczenia prawidłowe (tzn sam bym zrobił tak samo/podobnie używając selenium), chociaż metoda login będzie próbowała zwrócić browser nawet jak będziesz miał błąd logowania i tutaj sie wywali całość.

Zastanowił bym się nad dodatkową klasa Browser gdzie ogarniesz logowanie, sprawdzanie czy dalej jesteś zalogowany czy nie, ewentualne ponowne logowanie w razie konieczności itp.

2. Puść skrypt na kilka godzin i zobacz czy sie wykrzaczy bez ponownego logowania

fifiak

03.03.2024, 17:31:32

0

Jak wyciagnąć link ze strony po kliknięciu w pewien przycisk który wyswietla zmienioną listę na tej stronie? Link caly czas jest ten sam do konsoli a zmiana dziala jakoś z poziomu javascriptu... To jakbyś wszedł na pogodę na wp.pl i zamiast wp.pl/pogoda masz caly czas wp.pl #scrapping #python #javascript #html #webdev #php #webscraping

blacktyg3r

03.03.2024, 17:40:59 via Wykop

1

@fifiak: Rozpoczynasz przygodę ze grzebaniem od front-endu, poczytaj o Selenium albo playwright, frameworki które mogą 'udawać, że są zwykłym użytkownikiem (głównie stosowane do testów).

W ten sposób łatwo podjąć interakcję ze skryptami i dostać się do interesujących nas danych.

PS. Często otwierając konsolę deweloperską możemy znaleźć adresy URL do niepublicznych API które strona wykorzystuje do pobierania danych - jeśli nie masz zamiaru robić nic 'złego' to można w ten sposób

fifiak

03.03.2024, 21:37:40 via Android

0

@fifiak a przykladowo jak w operze przez nagranie sesji i klikania mam jsob albo jakiś puppeteer to da rade łatwo to odpalić pythonem albo z poziomu basha? Bo nie wiem jak teraz wykorzystac ten kod a sa tam xpathy, clicki itp

maly1234

16.02.2024, 12:12:30

0

Czy działał ktoś kiedyś ze scrapingem danych jeśli chodzi o utwory muzyczne? Potrzebuje wyciągnąć daty premier ok. 500 polskich piosenek. Próbowałem z pythonowym "Spotipy", ale Spotify ma miks w tym przypadku, czasem daty się zgadzają, a czasem są to daty jakieś re-edycji lub po prostu dodania do serwisu. ChatGPT też nie działa - wygląda jakby rzucał pierwszą datą znalezioną w google i tutaj ma się to podobnie jak Spotify, przy wyrywkowym sprawdzaniu,

pa6lo

16.02.2024, 12:40:11 via Wykop

1

Spotify ma miks w tym przypadku, czasem daty się zgadzają, a czasem są to daty jakieś re-edycji

Zgadza się, dla mnie to jedna z największych bolączek Spotify. Próbowałeś MusicBrainz?

cohontes

16.02.2024, 16:06:14 via Wykop

0

@maly1234: no tagujesz scraping, webscraping,python to rownie dobrze moze byc 343434343431 ( ͡° ͜ʖ ͡°)

MlLF

31.01.2024, 14:07:16

0

Mirki, czy i jak można za pomocą node robić web scraping strony, która wymaga logowania?
Dla przykładu załóżmy, że chcę pobierać statystyki oferty ze strony otomoto.
(Załóżmy oczywiście, że strona nie udostępnia takich informacji poprzez API)

#webscraping #nodejs #programowanie #programista15k

zibizz1

31.01.2024, 14:12:03 via Wykop

4

@MlLF: logujesz się wysyłając login i haśło, pobierasz token i potem doddajesz informacje które otrzymasz do każdego requesta w nagłówkach, może jakies ciastka. Jest pełen wachlarz różnych sposobów, ale token jest najpopularniejszym

pa6lo

31.01.2024, 14:25:49 via Wykop

4

czy i jak można za pomocą node robić web scraping strony, która wymaga logowania?

@MlLF: Oczywiście, najlepiej przy pomocy Puppeteer.

Scraper używa dedykowanego browsera (Chromium), który jest inicjowany przy każdym uruchomieniu, czyszcząc sesję i ciasteczka. Można też podłączyć go do zainstalowanego Chrome, ale w większości przypadków można tak zaprojektować proces, żeby zawsze zaczynał

thebigshort

23.01.2024, 15:12:43

0

Mam jakieś 1k linków do aukcji konkurencji (docelowo pewnie bym chciał do 10k aukcji) z których chcę pobierać dane do raportu w PowerBI, dokładnie cenę i ilość (albo prosto do PowerBi albo przez skrypt pythona i wtedy do PowerBI).

Nie interesuje mnie moment pobrania tych 1k-10 aukcji, bardziej interesuje mnie kwestia odświeżania danych, czyli ceny oraz ilości.

Czy allegro szybko wyłapują takie ruchy przy takiej ilości? Jakiś sposób na obejście, sprawdzone metody? Czy opóźnienia pobierania coś dają? Co jaki czas odświeżać i kiedy? itp.

Jest

fiddle

23.01.2024, 16:35:00 via Wykop

1

@junus123: Wszystkie strony blokują dużą liczbę zapytań i odpowiadając @thebigshort - tak, do minuty (max kilku, zależy od ilości zapytań) Cię wyłapią i będzie captcha. Oczywiście da się obejść, ale do tego potrzebujesz zainwestować w rotator z przyzwoitą pulą.

NieoznaczonaReklama

23.01.2024, 16:56:11 via Wykop

1

@fiddle: ja na vpn pobieram skryptem aukcje z kategorii od kiedy zablokowali API i wyłapuję bana z raz na miesiąc i wystarczy zmienić serwer... Także jak czegoś nie robisz i nie masz pojęcia to po co pleciesz głupoty?

cohontes

30.12.2023, 15:00:13

0

#scraping #webscraping #selenium

czy ktoś używał z was serwisów typu zenrows do scrapowania danych? Zazwyczaj radziłem sobie ze zmianą headerów, ewentualnie mniejsze batche, jakieś darmowe proxy. Teraz problem jest taki, że wystarczy otworzyć 5 kart z danej strony i już jest podejrzenie bycia botem :P dlatego rozkminiam nawet takie portale.

gadatos

03.09.2023, 17:25:45

0

dlaczego klasy CSS na allegro mają tak dziwne nazwy
czy zmieniają się co jakiś czas czy są stałe

#programowanie #webscraping

radziu_11

03.09.2023, 17:28:26 via Wykop

2

@gadatos: może być to jeden z mechanizmów walki z web scrapperami

KontoDoPomocy

03.09.2023, 18:03:00 via Wykop

8

@gadatos: Aktualnie w webie często nie pisze się już klas w plikach css tylko korzysta z jakichś mechanizmów typu styled-components czy scss/sass, które w czasie budowy zmieniają nazwy na hashe (lub coś innego w zależności od libki). Głównym celem jest unikanie kolizji nazw (sytuacja gdzie różne klasy dzielą tą samą nazwę)

gadatos

23.08.2023, 19:54:06

0

jest jakiś sposób żeby allegro nie wykrywało bota napisanego w js i #puppeteer ?

#programowanie #javascript #webscraping

LeKosmita

23.08.2023, 20:00:27 via Android

3

@gadatos to może w nagłówku masz że to bot

gadatos

29.08.2023, 19:21:21 via Android

2

@rockip @zapoznalem @LeKosmita
pomogło włączenie pamięci podręcznej w przeglądarce
dzięki ( ͡° ʖ̯ ͡°)

mk321

06.07.2023, 17:25:35

0

#paywall #chatgpt #piractwo #webscraping

Podobno ChatGPT mógł obejść paywalle.
Jak?

Czy jest jakiś sposób, żeby dostać się do treści ze strony? Jeśli tak, to jak?

damianooo8

06.07.2023, 17:31:05 via Wykop

1

@mk321: Info na jednej ze stron do omijania paywalla:

Pomysł jest dość prosty: serwisy informacyjne chcą, by Google indeksował ich treści, by pojawiały się one w wynikach wyszukiwania. Nie pokazują więc paywalla robotowi indeksującemu Google. Korzystamy na tym, ponieważ crawler Google buforuje kopię witryny za każdym razem, gdy ją indeksuje.

k.....r

konto usunięte 27.06.2023, 10:28:12

4

Hejka #programowanie #webdev #hacking #kiciochpyta #pytaniedoeksperta

Szukam #webscraping który wygeneruje linki do wszystkich treści publikowanych na moim profilu. Linki mogą sobie być zapisane jako adresy url w formacie txt, obojętne. Wystarczą same linki.

TEN WPIS NIE MA ŻADNEGO ZWIĄZKU Z Usunięcie twoich WSZYSTKICH publikowanych treści na wykop.pl ANI Z ARTYLKUŁEM NA telegra.ph.

#niebezpiecznik @niebezpiecznik-pl

k.....r - Hejka #programowanie #webdev #hacking #kiciochpyta #pytaniedoeksperta

Szuk... — **źródło:** j4gD4fw
Pobierz

Mazowia

27.06.2023, 10:42:13 via Wykop

0

Komentarz usunięty przez autora

k.....r

konto usunięte 27.06.2023, 10:44:09 via Wykop

0

@Benzen: tutaj już mało co może pomóc. :D

Xardin

02.01.2023, 17:55:49

0

Dzień dobry, szukam biblioteki do webscrapingu, najważniejszym parametrem jest chyba szybkość. popróbowałem requests plus bs4, problem jednak w tym że jest wolno. Chce ten kod wsadzić do programu okienkowego, więc najchętniej bym przyspieszył jakoś dostęp do danych, by poprawić płynność.
#python #webscraping

zwei

02.01.2023, 18:00:09

2

przyspieszył jakoś dostęp do danych, by poprawić płynność.

@Xardin: niech zgadnę, nie scrapujesz w osobnym wątku, prawda? Poczytaj sobie o threadingu.

s3b4

02.01.2023, 18:05:18

2

więc problemem jest chyba tylko te 2-4 sekundy logowania requests.

@Xardin: brzmi jak by problem był po drugiej stronie. sprawdź ile te requesty trwają.
(i też jestem za scrapy w wielu wątkach)

MondayPL

17.12.2022, 01:02:04 via iOS

0

#webscraping

Hej, jak teraz uniknąć 403 na OLX używając scrapy?
Useragent nic nie daje.

Oake

14.12.2022, 13:44:10

0

chce zescrapować stronę, na której jest dużo textboxów i comboxów, w których są już konkretne wartości. Niestety w kodzie w htmlu wartości z tych boxów nie ma. Czy da się to jakoś zescrapować BeautifulSoupem, czy on po prostu wyciąga tekst z kodu html? Np. żeby znalazł value dla danego id. Dołączam screena jak to wygląda np. na wykopie, gdzie domyślny wartość z textboxa jest w kodzie html, u mnie tego nie ma

Oake - chce zescrapować stronę, na której jest dużo textboxów i comboxów, w których s... — **źródło:** comment_1671025447fewUSZkFBzylXkI4QQ66KK.jpg
Pobierz

fiddle

14.12.2022, 14:44:20

0

Komentarz usunięty przez autora

RolnikSamWdolinie

14.12.2022, 15:26:57 via Zakop

1

@Oake: nie wiem na ile umiesz front ale do scrapowania 10x lepszyn jest nodejs i cheerio. Używasz tego jak jQuery

Masto

08.11.2022, 10:38:33

0

Potrzebuję pobrać do #googlesheets aktualną cenę danego produktu z #olx po podaniu linku.

Udało mi się na razie napisać:

=IMPORTXML(URL;"//div[contains(@class,'css-dcwlyx')]")
Ale raz działa, raz nie i zasysa zbędne dane.

Thiocomaster

08.11.2022, 10:59:25

0

@Masto: a regulamin olxa pozwala na scrapowanie? Pewnie nie. Prokuratura poinformowana. Pozdrawiam.

marsjanin2012

08.11.2022, 11:06:38

1

@Thiocomaster: wschodnie boty od pobierania numeru telefonu i kontaktu przez WU jakos nie widza problemu, tez strzelam na nazwy klass bo juz widac dcwlyx jakies takie "losowe" ale na bank do ogarniecia

maniok

10.09.2022, 19:37:22 via Wykop Mobilny (Android)

4

Pierwszy w życiu zrobiony #webscraping i humor gituwa

MondayPL

09.12.2022, 23:05:14 via iOS

0

@maniok: Gdzie zahostowałeś sobie bota?

maniok

10.12.2022, 08:07:56 via Wykop Mobilny (Android)

0

@MondayPL: vps free tier na oracle

AnonimoweMirkoWyznania

16.07.2022, 18:16:46 via AMWv2

0

#anonimowemirkowyznania
Cześć, z góry zaznaczam, że nie mam konta na wykopie i nie mam się kogo poradzić. Od razu podam tagi #programowanie #naukaprogramowania #python #scraping #webscraping

Wymyśliłem sobie taki plan. Zapytacie się jaki? Kurna sprytny.( ͡° ͜ʖ ͡°) Chciałbym scrapować nazwy produktów+ceny tych produktów. Słabo się znam na programowaniu, ale myślę, że ogarnę na podstawie filmików na yt i nauczę się czegoś przydatnego. Chodzi o inną kwestię, wyczytałem w internecie, że za webscraping można dostać bana na ip za zbyt dużo zapytań na stronę. Niby mam częściowo zmienne ip(trzecia i czwarta liczba w ip zmienia się poprzez reset routera, ale boję się o bana na zakres ip(cs 1.6 #pdk) I tutaj mam parę pytań:
1. Zamierzam scrapować ok 50 produktów i ich ceny z jednego linku(w sumie ok 600 produktów=12 linków do poszczególnej listy produktów i cen; 6-8 domen). Oznacza to, że odpalając pythona z jednym url i pobieraniem 100 danych, strona będzie widzieć to jako 1 request czy 100 requestów(bo pod jednym url pobieram 50 nazw i 50 cen)?
2. Wyczytałem również, że można zabezpieczyć się poprzez proxy. Stawiać linuxa mint i proxychaining na wirtualnej maszynie? Czy tylko zmiana ip i user-agent w kodzie pythona? Czy olać to

kimikini

16.07.2022, 18:59:19

1

@AnonimoweMirkoWyznania: to nie nauka na tydzien czy dwa jak nie umiesz w ogole programowac ;)

wiesiu2

16.07.2022, 20:39:41

0

Taki co ściąga np. 300tys. produktów z rozbiciem na lokalizacje czyli łącznie +2 mln produktów per sklep w 24h? Jak tak to pisz na pw.

@lol3pdg: takiego nie pisałem, ale nie powinno być to zbyt skomplikowane, teoretycznie potrzeba wiele serwerów z zainstalowanym i dobrze skonfigurowanym sock5, do tego soft który łączy się przez tak skonfigurowane proxy.
Kiedyś analizowaliśmy jeden tego typu projekt aby go zrobić w oparciu o routery Teltonika,

Spofity

09.07.2022, 10:46:38

1

Strona nie pozwala na prostego requesta html, komunikat "Please turn on Javascript". Czy da się to jakos obejsc?
Sprawdziłem w devtoolsach i wszystkie dane które potrzebuje są na stronie statycznie bez wywoływania żadnego skryptu.
#python #programowanie #webscraping #webdev

Ernest_

09.07.2022, 10:52:39

2

Sprawdziłem w devtoolsach i wszystkie dane które potrzebuje są na stronie statycznie bez wywoływania żadnego skryptu

@Spofity: sprawdź jeszcze raz przez prawy klik -> Wyświetl źródło strony ( ͡° ͜ʖ ͡°)

kubako

09.07.2022, 13:04:56 via Android

1

@Spofity no to #!$%@? wie ;)

heater

28.06.2022, 17:51:04

0

Potrzebowalbym narzedzie, ktore weszloby mi na strone i pobralo html z kilkuset podstron, plus od czasu do czasu rozwiazalo captche v2. Zrobilem maly research i nie znalazlem nic rozsadnego/darmowego, serio wymagam tak wiele?
Nie siedze w ogole w webdevie, wiec pisanie jakis skryptow srednio widze.

#webdev #informatyka #webscraping

kimikini

28.06.2022, 17:54:59

8

serio wymagam tak wiele?

@heater: tak

vytah

28.06.2022, 18:04:48

3

@heater: Zatrudnij do tego kilkudziesięciu Hindusów przez Amazon Mechanical Turk

DreqX

27.06.2022, 14:22:08

0

Mirki wiecie jak wyciągnąć datę stworzenia ogłoszenia na otomoto? Data pod zdjęciem to oczywiście data odświeżenia, szukałem po requestach ale nie widzę nigdzie.
#otomoto #programowanie #webscraping #scraping

b.....b

konto usunięte 27.06.2022, 14:36:44

0

Komentarz usunięty przez autora

d.....z

konto usunięte 27.06.2022, 14:55:15

1

@DreqX: jak nie ma to odwiedzaj stronę odpowiedno często i utrzymuj swoją własną bazę ogłoszeń - będziesz wtedy miał moment dodania danego ogłoszenia, na podstawie swojej własnej bazy,