Mam jakieś 1k linków do aukcji konkurencji (docelowo pewnie bym chciał do 10k aukcji) z których chcę pobierać dane do raportu w PowerBI, dokładnie cenę i ilość (albo prosto do PowerBi albo przez skrypt pythona i wtedy do PowerBI).

Nie interesuje mnie moment pobrania tych 1k-10 aukcji, bardziej interesuje mnie kwestia odświeżania danych, czyli ceny oraz ilości.

Czy allegro szybko wyłapują takie ruchy przy takiej ilości? Jakiś sposób na obejście, sprawdzone metody?
@junus123: Wszystkie strony blokują dużą liczbę zapytań i odpowiadając @thebigshort - tak, do minuty (max kilku, zależy od ilości zapytań) Cię wyłapią i będzie captcha. Oczywiście da się obejść, ale do tego potrzebujesz zainwestować w rotator z przyzwoitą pulą.
  • Odpowiedz
#scraping #webscraping #selenium

czy ktoś używał z was serwisów typu zenrows do scrapowania danych? Zazwyczaj radziłem sobie ze zmianą headerów, ewentualnie mniejsze batche, jakieś darmowe proxy. Teraz problem jest taki, że wystarczy otworzyć 5 kart z danej strony i już jest podejrzenie bycia botem :P dlatego rozkminiam nawet takie portale.
  • Odpowiedz
#anonimowemirkowyznania
Cześć, z góry zaznaczam, że nie mam konta na wykopie i nie mam się kogo poradzić. Od razu podam tagi #programowanie #naukaprogramowania #python #scraping #webscraping

Wymyśliłem sobie taki plan. Zapytacie się jaki? Kurna sprytny.( ͡° ͜ʖ ͡°) Chciałbym scrapować nazwy produktów+ceny tych produktów. Słabo się znam na programowaniu, ale myślę, że ogarnę na podstawie filmików na yt i nauczę się czegoś przydatnego. Chodzi o inną kwestię, wyczytałem
Taki co ściąga np. 300tys. produktów z rozbiciem na lokalizacje czyli łącznie +2 mln produktów per sklep w 24h? Jak tak to pisz na pw.


@lol3pdg: takiego nie pisałem, ale nie powinno być to zbyt skomplikowane, teoretycznie potrzeba wiele serwerów z zainstalowanym i dobrze skonfigurowanym sock5, do tego soft który łączy się przez tak skonfigurowane proxy.
Kiedyś analizowaliśmy jeden tego typu projekt aby go zrobić w oparciu o routery Teltonika, niektóre
  • Odpowiedz
@DreqX: jak nie ma to odwiedzaj stronę odpowiedno często i utrzymuj swoją własną bazę ogłoszeń - będziesz wtedy miał moment dodania danego ogłoszenia, na podstawie swojej własnej bazy,
  • Odpowiedz
@pierzchala6: nie scrapuję allegro, ale możesz spróbować technik:

- odpowiedni user-agent => https://pypi.org/project/user-agents/ (nie zmieniaj w trakcie, stosuj w jednej sesji)
- losowe czasy "klikania", czyli nie w 1s wszystko, a klik w link, jakieś opóźnienie z zakresu powiedzmy 10-30s, dopiero potem klik w kolejny link (nie kilka na raz jednocześnie i nie po tym samym opóźnieniu)
- reagowanie na kody, np. http/429 - czasem web server może strzelić takim kodem
  • Odpowiedz
Scrapował może ktoś ostatnio dane ze stooq/money.pl? Potrzebuję danych daily dotyczących wszystkich opcji notowanych na polskiej giełdzie, ale mam problem z sensownym zescrapowaniem tego. Dotychczas leciałem pandasem po bankier.pl i śmigało, na stooq i money już nie ma tak łatwo. Stooq zupełnie nie ładuje się przez request, a money nie przechowuje interesujących mnie danych w htmlowej tabeli, ale w jakichś klasach do których nie mam pojęcia jak się dorwać xD Będę bardzo
@goferoo: otwierasz przegladarke za pomoca selenium, potem klikasz przycisk, potem uzywasz bs4 zeby sciagnal calosc i e voila! ( ͡° ͜ʖ ͡°) prostrze niż requesty itd. Po jednym tutorialu ogarniesz
  • Odpowiedz
@Spofity: trochę mało dokładne informacje.
Ja bym do płyt głównych dorzucił nazwę kodową chipsetu np. SR2WC dla Biostar TB250-BTC+ albo SR1JK dla serii Z97.

Dla kart graficznych mógłbyś dodać nazwy GPU w postaci np. GP107 dla 1050 itp.
Wszystkie te informacje możesz pociągnąć z techpowerup i podobnych stron.
  • Odpowiedz
Cześć Mirki,

Chciałbym przeprowadzić badanie na podstawie bazy danych na stronie EUvsDisinfo (https://euvsdisinfo.eu/disinformation-cases/). Zastanawiam się, w jaki sposób mógłbym napisać skrypt tak, żeby przy użyciu biblioteki do scrapowanie (np. request) móc pobierać i ładować do beautifulsoup kolejne strony bazy danych. Stron jest od 1 - 1337.

Uprzedzam, że nie mam żadnego wykształcenia programistycznego i znam tylko podstawy podstaw Pythona.

#python #scraping #naukaprogramowania
Istnieje jakiś skrypt do web scrapingu wykopu? Chciałbym się za to zabrać, ale może nie muszę wynajdywać koła od nowa. Zależy mi głównie na pobieraniu tytułów znalezisk z jakimś if'em dotyczącym tego ile razy wykopano dane znalezisko - i to zapisywać w .txt
#scraping #python
@szacowny_korbiarz: Czy wie ktoś jak mógłbym pobrać sobie na dysk archiwum gadu-gadu? Boję się, że gg spotka za jakiś czas los nk i chciałbym zachować dla potomnych moje stare wiadomości. Problem jest taki, że gg nie oferuje opcji zapisania archiwum, a ręcznie to mordęga bo każda osobna konwersacja to osobna strona/zakładka, a takich konwersacji to i ze 100 można było mieć z jedną osobą. Poza tym ich śmieszna wyszukiwarka wiadomości praktycznie
Jak scrapować whoscored.com? Chciałbym pobrać sobie np. listę wszystkich podań i ich współrzędnych z danego meczu (pic related - kropki). Jak się za to zabrać? Dane z innych stron często są łatwo w jsonie lub źródle strony, a tu nie. Wszędzie w internecie czytam że scrapowanie tego jest trudne, a potem widzę jak prawie każdy na tt to robi, ale nie chce ujawniać kodu.

link do przykładowego meczu: https://www.whoscored.com/Matches/1464189/Live/France-Ligue-1-2020-2021-Marseille-Lyon

#python
#scraping
tyrytyty - Jak scrapować whoscored.com? Chciałbym pobrać sobie np. listę wszystkich p...

źródło: comment_1614591345zOYaHmtoFElLrcoEQPU9ny.jpg

Pobierz
#python #scraping #ocr

Czy jest możliwe dokładne pobieranie danych z pdfu, który wygląda jak np. gazetka Biedronki?
Potrzebuję zebrać sporo danych historycznych i m.in. takie pdfy są znakomitym źródłem informacji jednak próbowałem różnych programów ocr i efekt jest słaby. Z kolei ręczne wklepywanie kilkuset pdf też wygląda słabo.

Znacie jakieś programy ocr, sposoby jak to zrobić?

Dzięki za pomoc
Czy scrapując filmweb klasyczną metodą python+requests+BeautifulSoup mogę się narazić na bana ip? Jeśli tak, to co zrobić żeby się nie narazić poza ustawieniem delayu w requestach?

#python
#scraping
via Wykop Mobilny (Android)
  • 1
@4ndy:
Jakiś czas temu na wykopie pojawił się link do artykułu, gdzie ktoś w ten sposób pobierał dane z filmweb.
Robił to właśnie w nocy i z różnymi opźnieniami bo nie chciał problemów. Chyba kilka miesięcy zbierał dane.
Jak znajdę linka to podrzucę.
  • Odpowiedz
Mirki umiace dobrze w komputer jest sprawa. Chcialbym pobierac z googla informacje na temat fryzjerow. Konkretnie z tej zakladki mapy gdzie sa listy firm dodanyxh do google. Jest jakas inna droga niz scrapowanie? Bo pewnie google sid lrzed tym jakos zabezpiecza.
Wiem ze jest tez cos takiego jak places API, ale platne, a tp tylko hobbystyczny projekt
Najlepeiej jakby byl w C# ale bez znaczenia, chodzi mo o sama idee.
#scraping #
ChamskoCytuje - Mirki umiace dobrze w komputer jest sprawa. Chcialbym pobierac z goog...

źródło: comment_1603719805GLr4nzY142jDzfBtYm1oBl.jpg

Pobierz
@ChamskoCytuje: Albo kup te API albo odpuść bo obstawiam, że jak google wykryje żeś BOT a nie człowiek to captchę Ci zacznie rzucać. Jestem prawie pewien - nie wiem czy wiesz czym są google dorks ale jak się ich dużo używa to google po Cię IP odcina na jakiś czas bo podejrzana aktywność
  • Odpowiedz
#python #scraping
#programowanie

Mam za zadania ściągać dane z amazona dla produktów które użytkownik wybierze. Zawsze mam wybrać najtańszą opcję(najtańsza opcja łącznie z dostawą). Niestety wyszukiwarka amazona działa dziwnie i nie pokazuje wyników takie jak bym chciał. Przykład może być: szukam tv wyskakują uchwyty pod tv, szukam jakieś elektorniki to wyskakują części zamienne. Nie wiem jak sobie z tym poradzić i wyszukiwać na amazonie poprawnie.
Uczyłem się ostatnio trochę webscrapingu. Jakie ciekawe i unikatowe dane mogę ściągnąć żeby poćwiczyć?
Zależy mi, żeby takie dane można było potem w ciekawy sposób analizować, a najlepiej jeszcze zrobić na ich podstawie jakiś model uczenia maszynowego.
Wymyśliłem sobie ściąganie informacji i cen używanych aut oraz mieszkań. Udało mi się już to zrobić, ale takie dane są lekko oklepane. Co jeszcze ciekawego zostało z najlepiej polskich stron internetowych?
#scraping #datascience #python
@wiecek3: pozbieraj dane z wykopu, np dla każdego znaleziska lub wpisu listę zwartych tagów, datę dodania, liczbę komentarzy i plusów, a potem zrób model szacujący popularność na podstawie takich danych
  • Odpowiedz
@ProfesorBigos: ej, to jest świetny pomysł! Dziękuję serdecznie, czegoś takiego potrzebowałem! Teraz tylko muszę się zabezpieczyć kilkoma proxy zanim zacznę scrapować, bo jak dostanę bana na wykop to nie wiem co zrobię xD
  • Odpowiedz