#scraping

23.01.2024, 15:12:43

0

Mam jakieś 1k linków do aukcji konkurencji (docelowo pewnie bym chciał do 10k aukcji) z których chcę pobierać dane do raportu w PowerBI, dokładnie cenę i ilość (albo prosto do PowerBi albo przez skrypt pythona i wtedy do PowerBI).

Nie interesuje mnie moment pobrania tych 1k-10 aukcji, bardziej interesuje mnie kwestia odświeżania danych, czyli ceny oraz ilości.

Czy allegro szybko wyłapują takie ruchy przy takiej ilości? Jakiś sposób na obejście, sprawdzone metody?

fiddle

23.01.2024, 16:35:00 via Wykop

1

@junus123: Wszystkie strony blokują dużą liczbę zapytań i odpowiadając @thebigshort - tak, do minuty (max kilku, zależy od ilości zapytań) Cię wyłapią i będzie captcha. Oczywiście da się obejść, ale do tego potrzebujesz zainwestować w rotator z przyzwoitą pulą.

NieoznaczonaReklama

23.01.2024, 16:56:11 via Wykop

1

@fiddle: ja na vpn pobieram skryptem aukcje z kategorii od kiedy zablokowali API i wyłapuję bana z raz na miesiąc i wystarczy zmienić serwer... Także jak czegoś nie robisz i nie masz pojęcia to po co pleciesz głupoty?

cohontes

30.12.2023, 15:00:13

0

#scraping #webscraping #selenium

czy ktoś używał z was serwisów typu zenrows do scrapowania danych? Zazwyczaj radziłem sobie ze zmianą headerów, ewentualnie mniejsze batche, jakieś darmowe proxy. Teraz problem jest taki, że wystarczy otworzyć 5 kart z danej strony i już jest podejrzenie bycia botem :P dlatego rozkminiam nawet takie portale.

AnonimoweMirkoWyznania

16.07.2022, 18:16:46 via AMWv2

0

#anonimowemirkowyznania
Cześć, z góry zaznaczam, że nie mam konta na wykopie i nie mam się kogo poradzić. Od razu podam tagi #programowanie #naukaprogramowania #python #scraping #webscraping

Wymyśliłem sobie taki plan. Zapytacie się jaki? Kurna sprytny.( ͡° ͜ʖ ͡°) Chciałbym scrapować nazwy produktów+ceny tych produktów. Słabo się znam na programowaniu, ale myślę, że ogarnę na podstawie filmików na yt i nauczę się czegoś przydatnego. Chodzi o inną kwestię, wyczytałem

kimikini

16.07.2022, 18:59:19

1

@AnonimoweMirkoWyznania: to nie nauka na tydzien czy dwa jak nie umiesz w ogole programowac ;)

wiesiu2

16.07.2022, 20:39:41

0

Taki co ściąga np. 300tys. produktów z rozbiciem na lokalizacje czyli łącznie +2 mln produktów per sklep w 24h? Jak tak to pisz na pw.

@lol3pdg: takiego nie pisałem, ale nie powinno być to zbyt skomplikowane, teoretycznie potrzeba wiele serwerów z zainstalowanym i dobrze skonfigurowanym sock5, do tego soft który łączy się przez tak skonfigurowane proxy.
Kiedyś analizowaliśmy jeden tego typu projekt aby go zrobić w oparciu o routery Teltonika, niektóre

DreqX

27.06.2022, 14:22:08

0

Mirki wiecie jak wyciągnąć datę stworzenia ogłoszenia na otomoto? Data pod zdjęciem to oczywiście data odświeżenia, szukałem po requestach ale nie widzę nigdzie.
#otomoto #programowanie #webscraping #scraping

b.....b

konto usunięte 27.06.2022, 14:36:44

0

Komentarz usunięty przez autora

d.....z

konto usunięte 27.06.2022, 14:55:15

1

@DreqX: jak nie ma to odwiedzaj stronę odpowiedno często i utrzymuj swoją własną bazę ogłoszeń - będziesz wtedy miał moment dodania danego ogłoszenia, na podstawie swojej własnej bazy,

Spofity

30.05.2022, 15:39:11

0

Jest coś jak #ceneo tylko z API, żebym mógł po nazwie / url produktu znalezc najniższą cene w innych sklepach?

#programowanie #webscraping #scraping #api

Spofity

30.05.2022, 15:50:28

0

@scriptkitty no wlasnie to chyba nie to :D

Spofity

30.05.2022, 15:50:45

0

+ ja szukam dla osób fizycznych, nie mam dg

pierzchala6

10.05.2022, 07:50:06

0

Zna ktoś działający sposób na unikanie wykrycia na Allegro? Używam Selenium w pythonie i selenium-stealth
#scraping #allegro #python

I.....t

konto usunięte 10.05.2022, 09:17:07 via iOS

2

@pierzchala6: Scrappy albo może przez cypressa?

d.....z

konto usunięte 12.05.2022, 13:53:58

1

@pierzchala6: nie scrapuję allegro, ale możesz spróbować technik:

- odpowiedni user-agent => https://pypi.org/project/user-agents/ (nie zmieniaj w trakcie, stosuj w jednej sesji)
- losowe czasy "klikania", czyli nie w 1s wszystko, a klik w link, jakieś opóźnienie z zakresu powiedzmy 10-30s, dopiero potem klik w kolejny link (nie kilka na raz jednocześnie i nie po tym samym opóźnieniu)
- reagowanie na kody, np. http/429 - czasem web server może strzelić takim kodem

throaway

22.04.2022, 03:10:55 via Wykop Mobilny (Android)

0

Ma ktoś scraper do mieszkań na olx?
#scraping #olx

throaway

22.04.2022, 20:21:57 via Wykop Mobilny (Android)

1

@Dibhala: nie no są, przez 15 sekund XD a skąd niby wziąć mieszkanie

throaway

23.04.2022, 16:13:19

0

@Dibhala: dzieki mirku xD

goferoo

20.02.2022, 20:19:54

0

Scrapował może ktoś ostatnio dane ze stooq/money.pl? Potrzebuję danych daily dotyczących wszystkich opcji notowanych na polskiej giełdzie, ale mam problem z sensownym zescrapowaniem tego. Dotychczas leciałem pandasem po bankier.pl i śmigało, na stooq i money już nie ma tak łatwo. Stooq zupełnie nie ładuje się przez request, a money nie przechowuje interesujących mnie danych w htmlowej tabeli, ale w jakichś klasach do których nie mam pojęcia jak się dorwać xD Będę bardzo

Mazowia

20.02.2022, 21:33:13

1

@goferoo: jak będziesz dużo requestów wysyłał to założą czasową blokadę i potrzebny będzie proxy pool

cohontes

20.02.2022, 21:44:41

1

@goferoo: otwierasz przegladarke za pomoca selenium, potem klikasz przycisk, potem uzywasz bs4 zeby sciagnal calosc i e voila! ( ͡° ͜ʖ ͡°) prostrze niż requesty itd. Po jednym tutorialu ogarniesz

Spofity

29.12.2021, 18:09:57

3

Jakby ktoś potrzebował listę prawie wszystkich procesorów, kart graficznych, płyt głównych to proszę:
https://github.com/Pawikoski/PC-Components

Własnie zescrapowałem i moze sie komus przyda
#procesory: https://github.com/Pawikoski/PC-Components/blob/main/processors.json
#kartygraficzne: https://github.com/Pawikoski/PC-Components/blob/main/graphic_cards.json
płyty główne: https://github.com/Pawikoski/PC-Components/blob/main/motherboards.json

#scraping #programowanie #komputery #skladamkomputer #informatyka #komputer

JoeBlade

29.12.2021, 20:44:57

1

@Spofity: trochę mało dokładne informacje.
Ja bym do płyt głównych dorzucił nazwę kodową chipsetu np. SR2WC dla Biostar TB250-BTC+ albo SR1JK dla serii Z97.

Dla kart graficznych mógłbyś dodać nazwy GPU w postaci np. GP107 dla 1050 itp.
Wszystkie te informacje możesz pociągnąć z techpowerup i podobnych stron.

Spofity

29.12.2021, 21:29:59

0

@JoeBlade: bot do olx, tyle moge powiedzieć :D

kamilm119

24.12.2021, 09:23:05

0

Cześć Mirki,

Chciałbym przeprowadzić badanie na podstawie bazy danych na stronie EUvsDisinfo (https://euvsdisinfo.eu/disinformation-cases/). Zastanawiam się, w jaki sposób mógłbym napisać skrypt tak, żeby przy użyciu biblioteki do scrapowanie (np. request) móc pobierać i ładować do beautifulsoup kolejne strony bazy danych. Stron jest od 1 - 1337.

Uprzedzam, że nie mam żadnego wykształcenia programistycznego i znam tylko podstawy podstaw Pythona.

#python #scraping #naukaprogramowania

kamilm119

24.12.2021, 09:56:06

2

@LazyInitializationException: @luukasek: No i super, bardzo dziękuję Mireczkom. Wesołych świąt!

L.....k

konto usunięte 24.12.2021, 10:11:54

1

@kamilm119: Sugeruję zmienić parametr "per_page" na 100, wtedy zrobisz 10x mniej requestów

Scamexpose

14.09.2021, 08:32:24

1

Istnieje jakiś skrypt do web scrapingu wykopu? Chciałbym się za to zabrać, ale może nie muszę wynajdywać koła od nowa. Zależy mi głównie na pobieraniu tytułów znalezisk z jakimś if'em dotyczącym tego ile razy wykopano dane znalezisko - i to zapisywać w .txt
#scraping #python

PotatoZiemniak

14.09.2021, 08:34:59 via Wykop Mobilny (Android)

3

@Scamexpose: podobno jest api do tego XD

r.....n

konto usunięte 14.09.2021, 08:35:36

6

@Scamexpose: lol przecież wykop ma API i można wszystko wyciągnąć, scraping jest dla ubogich umysłowo

szacowny_korbiarz

05.08.2021, 15:32:40

1

@szacowny_korbiarz: Czy wie ktoś jak mógłbym pobrać sobie na dysk archiwum gadu-gadu? Boję się, że gg spotka za jakiś czas los nk i chciałbym zachować dla potomnych moje stare wiadomości. Problem jest taki, że gg nie oferuje opcji zapisania archiwum, a ręcznie to mordęga bo każda osobna konwersacja to osobna strona/zakładka, a takich konwersacji to i ze 100 można było mieć z jedną osobą. Poza tym ich śmieszna wyszukiwarka wiadomości praktycznie

pablo_see

05.08.2021, 15:50:28 via Wykop Mobilny (Android)

2

@szacowny_korbiarz: spróbuj komunikator WTW na stronie wtw.im Ma chyba opcje zapisu.

pablo_see

05.08.2021, 16:43:15

1

@szacowny_korbiarz: @szacowny_korbiarz: Widocznie "zepsuła się" ta funkcjonalność. Kaworu od czterech lat nie rozwija aplikacji.

tyrytyty

01.03.2021, 09:36:15

0

Jak scrapować whoscored.com? Chciałbym pobrać sobie np. listę wszystkich podań i ich współrzędnych z danego meczu (pic related - kropki). Jak się za to zabrać? Dane z innych stron często są łatwo w jsonie lub źródle strony, a tu nie. Wszędzie w internecie czytam że scrapowanie tego jest trudne, a potem widzę jak prawie każdy na tt to robi, ale nie chce ujawniać kodu.

link do przykładowego meczu: https://www.whoscored.com/Matches/1464189/Live/France-Ligue-1-2020-2021-Marseille-Lyon

#python
#scraping

tyrytyty

01.03.2021, 09:43:22

9

@pp53: niech wprowadzają tę licencję na chodzenie po bułki, bo się amatorom przewraca w głowie xD

Zendemion

01.03.2021, 09:45:43

2

wiedziałem że spytanie się na wypoku to będzie zły pomysł

@tyrytyty: e tam, odpowiedź dostałeś choć opryskliwą ( ͡° ͜ʖ ͡°)

BidAsk_bet

03.02.2021, 22:05:08

0

#python #scraping #ocr

Czy jest możliwe dokładne pobieranie danych z pdfu, który wygląda jak np. gazetka Biedronki?
Potrzebuję zebrać sporo danych historycznych i m.in. takie pdfy są znakomitym źródłem informacji jednak próbowałem różnych programów ocr i efekt jest słaby. Z kolei ręczne wklepywanie kilkuset pdf też wygląda słabo.

Znacie jakieś programy ocr, sposoby jak to zrobić?

Dzięki za pomoc

Pmpa

04.02.2021, 07:04:35

1

@BidAsk_bet: ja polecam easyocr, szczegolnie jak masz karte graficzna

narowerzesamochodem

04.02.2021, 11:32:29

1

@BidAsk_bet: jest jeszcze DeepText, ale jak @Pmpa wspomniał, easyocr jest fajny bo robi text detection + ocr, więc dwa w jednym ;)

4ndy

24.01.2021, 00:20:41

0

Czy scrapując filmweb klasyczną metodą python+requests+BeautifulSoup mogę się narazić na bana ip? Jeśli tak, to co zrobić żeby się nie narazić poza ustawieniem delayu w requestach?

#python
#scraping

NieJestemAgentemBialkova

24.01.2021, 03:24:20

1

@4ndy: Jeśli dobrze rozumiem zapis z https://www.filmweb.pl/robots.txt to chyba nie ma nałożonych limitów ze strony. Żeby nie zasypywać ich requestami możesz, tak jak sam napisałeś, ustawić delaye + scrapować w godzinach nocnych kiedy nie ma dużego ruchu na stronie.

BoKoR

24.01.2021, 07:23:02 via Wykop Mobilny (Android)

1

@4ndy:
Jakiś czas temu na wykopie pojawił się link do artykułu, gdzie ktoś w ten sposób pobierał dane z filmweb.
Robił to właśnie w nocy i z różnymi opźnieniami bo nie chciał problemów. Chyba kilka miesięcy zbierał dane.
Jak znajdę linka to podrzucę.

cohontes

11.12.2020, 11:16:03

2

Eh :( i znowu coś zmienili na #otodom i znowu kod trzeba dostosować

#scrapy
#python
#scraping

cohontes

11.12.2020, 11:23:29

0

@Maliizna: no miałem fajnego scrapera, który porównywał mi rzeczy do dashboardu a tutaj dupa, wszystko od nowa

ManfredMacx

12.12.2020, 04:01:23

0

Komentarz usunięty przez autora

ChamskoCytuje

26.10.2020, 13:46:50

0

Mirki umiace dobrze w komputer jest sprawa. Chcialbym pobierac z googla informacje na temat fryzjerow. Konkretnie z tej zakladki mapy gdzie sa listy firm dodanyxh do google. Jest jakas inna droga niz scrapowanie? Bo pewnie google sid lrzed tym jakos zabezpiecza.
Wiem ze jest tez cos takiego jak places API, ale platne, a tp tylko hobbystyczny projekt
Najlepeiej jakby byl w C# ale bez znaczenia, chodzi mo o sama idee.
#scraping #

ChamskoCytuje - Mirki umiace dobrze w komputer jest sprawa. Chcialbym pobierac z goog... — **źródło:** comment_1603719805GLr4nzY142jDzfBtYm1oBl.jpg
Pobierz

Fanatyk_Wedkarstwa

26.10.2020, 14:02:20

2

@ChamskoCytuje: Albo kup te API albo odpuść bo obstawiam, że jak google wykryje żeś BOT a nie człowiek to captchę Ci zacznie rzucać. Jestem prawie pewien - nie wiem czy wiesz czym są google dorks ale jak się ich dużo używa to google po Cię IP odcina na jakiś czas bo podejrzana aktywność

ChamskoCytuje

26.10.2020, 14:29:17

2

@Fanatyk_Wedkarstwa: to jak na projekt do szuflady to nie ma sensu placic, tym bardziej ze to places api w #!$%@? drogie.
No to lipa, bo nie znam miejsca w necie gdzie bylyby takie pelne listy firmz jak to jest w google

PiotrokeJ

04.08.2020, 07:39:40

0

#python #scraping
#programowanie

Mam za zadania ściągać dane z amazona dla produktów które użytkownik wybierze. Zawsze mam wybrać najtańszą opcję(najtańsza opcja łącznie z dostawą). Niestety wyszukiwarka amazona działa dziwnie i nie pokazuje wyników takie jak bym chciał. Przykład może być: szukam tv wyskakują uchwyty pod tv, szukam jakieś elektorniki to wyskakują części zamienne. Nie wiem jak sobie z tym poradzić i wyszukiwać na amazonie poprawnie.

PiotrokeJ

04.08.2020, 10:44:34

0

@luukasek: Wyskakuje bład no module chociaż wszystko zainstalowałem. inni też mają z tym problem.

l.....k

konto usunięte 04.08.2020, 10:46:04

0

@PiotrokeJ: tu masz jeszcze 1 kod.
https://www.scrapehero.com/tutorial-how-to-scrape-amazon-product-details-using-python-and-selectorlib/

k.....l

konto usunięte 14.07.2020, 18:47:40

0

pomógłby ktoś scrapnąć tutaj żeby się logowało jednym linkiem? pls ( ͡° ͜ʖ ͡°)
https://trucksbook.eu/
https://trucksbook.eu/components/notlogged/login.php?go= mam tu coś

#php #programowanie #scraping

k.....l

konto usunięte 14.07.2020, 20:14:44

0

nie chce mi sie

eternalmarcos

14.07.2020, 20:14:56

0

@kam1ll: postaw sobie phantomjs.do tego horsemsn na node i można cisnąć ;)

wiecek3

10.06.2020, 09:44:42

0

Uczyłem się ostatnio trochę webscrapingu. Jakie ciekawe i unikatowe dane mogę ściągnąć żeby poćwiczyć?
Zależy mi, żeby takie dane można było potem w ciekawy sposób analizować, a najlepiej jeszcze zrobić na ich podstawie jakiś model uczenia maszynowego.
Wymyśliłem sobie ściąganie informacji i cen używanych aut oraz mieszkań. Udało mi się już to zrobić, ale takie dane są lekko oklepane. Co jeszcze ciekawego zostało z najlepiej polskich stron internetowych?
#scraping #datascience #python

ProfesorBigos

10.06.2020, 09:50:53

2

@wiecek3: pozbieraj dane z wykopu, np dla każdego znaleziska lub wpisu listę zwartych tagów, datę dodania, liczbę komentarzy i plusów, a potem zrób model szacujący popularność na podstawie takich danych

wiecek3

10.06.2020, 10:01:56

2

@ProfesorBigos: ej, to jest świetny pomysł! Dziękuję serdecznie, czegoś takiego potrzebowałem! Teraz tylko muszę się zabezpieczyć kilkoma proxy zanim zacznę scrapować, bo jak dostanę bana na wykop to nie wiem co zrobię xD