Czy działał ktoś kiedyś ze scrapingem danych jeśli chodzi o utwory muzyczne? Potrzebuje wyciągnąć daty premier ok. 500 polskich piosenek. Próbowałem z pythonowym "Spotipy", ale Spotify ma miks w tym przypadku, czasem daty się zgadzają, a czasem są to daty jakieś re-edycji lub po prostu dodania do serwisu. ChatGPT też nie działa - wygląda jakby rzucał pierwszą datą znalezioną w google i tutaj ma się to podobnie jak Spotify, przy wyrywkowym sprawdzaniu,
czy i jak można za pomocą node robić web scraping strony, która wymaga logowania?


@MlLF: Oczywiście, najlepiej przy pomocy Puppeteer.

Scraper używa dedykowanego browsera (Chromium), który jest inicjowany przy każdym uruchomieniu, czyszcząc sesję i ciasteczka. Można też podłączyć go do zainstalowanego Chrome, ale w większości przypadków można tak zaprojektować proces, żeby zawsze zaczynał od zera.

Jeśli chodzi o logowanie, to wybieram najprostsze podejście, czyli jednorazowo, ręcznie spisuję z DOM selektory
Mam jakieś 1k linków do aukcji konkurencji (docelowo pewnie bym chciał do 10k aukcji) z których chcę pobierać dane do raportu w PowerBI, dokładnie cenę i ilość (albo prosto do PowerBi albo przez skrypt pythona i wtedy do PowerBI).

Nie interesuje mnie moment pobrania tych 1k-10 aukcji, bardziej interesuje mnie kwestia odświeżania danych, czyli ceny oraz ilości.

Czy allegro szybko wyłapują takie ruchy przy takiej ilości? Jakiś sposób na obejście, sprawdzone metody?
@junus123: Wszystkie strony blokują dużą liczbę zapytań i odpowiadając @thebigshort - tak, do minuty (max kilku, zależy od ilości zapytań) Cię wyłapią i będzie captcha. Oczywiście da się obejść, ale do tego potrzebujesz zainwestować w rotator z przyzwoitą pulą.
#scraping #webscraping #selenium

czy ktoś używał z was serwisów typu zenrows do scrapowania danych? Zazwyczaj radziłem sobie ze zmianą headerów, ewentualnie mniejsze batche, jakieś darmowe proxy. Teraz problem jest taki, że wystarczy otworzyć 5 kart z danej strony i już jest podejrzenie bycia botem :P dlatego rozkminiam nawet takie portale.
@mk321: Info na jednej ze stron do omijania paywalla:

Pomysł jest dość prosty: serwisy informacyjne chcą, by Google indeksował ich treści, by pojawiały się one w wynikach wyszukiwania. Nie pokazują więc paywalla robotowi indeksującemu Google. Korzystamy na tym, ponieważ crawler Google buforuje kopię witryny za każdym razem, gdy ją indeksuje.
Hejka #programowanie #webdev #hacking #kiciochpyta #pytaniedoeksperta

Szukam #webscraping który wygeneruje linki do wszystkich treści publikowanych na moim profilu. Linki mogą sobie być zapisane jako adresy url w formacie txt, obojętne. Wystarczą same linki.

TEN WPIS NIE MA ŻADNEGO ZWIĄZKU Z Usunięcie twoich WSZYSTKICH publikowanych treści na wykop.pl ANI Z ARTYLKUŁEM NA telegra.ph.

#niebezpiecznik @niebezpiecznik-pl
k.....r - Hejka #programowanie #webdev #hacking #kiciochpyta #pytaniedoeksperta

Szuk...

źródło: j4gD4fw

Pobierz
Dzień dobry, szukam biblioteki do webscrapingu, najważniejszym parametrem jest chyba szybkość. popróbowałem requests plus bs4, problem jednak w tym że jest wolno. Chce ten kod wsadzić do programu okienkowego, więc najchętniej bym przyspieszył jakoś dostęp do danych, by poprawić płynność.
#python #webscraping
chce zescrapować stronę, na której jest dużo textboxów i comboxów, w których są już konkretne wartości. Niestety w kodzie w htmlu wartości z tych boxów nie ma. Czy da się to jakoś zescrapować BeautifulSoupem, czy on po prostu wyciąga tekst z kodu html? Np. żeby znalazł value dla danego id. Dołączam screena jak to wygląda np. na wykopie, gdzie domyślny wartość z textboxa jest w kodzie html, u mnie tego nie ma
Oake - chce zescrapować stronę, na której jest dużo textboxów i comboxów, w których s...

źródło: comment_1671025447fewUSZkFBzylXkI4QQ66KK.jpg

Pobierz
#anonimowemirkowyznania
Cześć, z góry zaznaczam, że nie mam konta na wykopie i nie mam się kogo poradzić. Od razu podam tagi #programowanie #naukaprogramowania #python #scraping #webscraping

Wymyśliłem sobie taki plan. Zapytacie się jaki? Kurna sprytny.( ͡° ͜ʖ ͡°) Chciałbym scrapować nazwy produktów+ceny tych produktów. Słabo się znam na programowaniu, ale myślę, że ogarnę na podstawie filmików na yt i nauczę się czegoś przydatnego. Chodzi o inną kwestię, wyczytałem
Taki co ściąga np. 300tys. produktów z rozbiciem na lokalizacje czyli łącznie +2 mln produktów per sklep w 24h? Jak tak to pisz na pw.


@lol3pdg: takiego nie pisałem, ale nie powinno być to zbyt skomplikowane, teoretycznie potrzeba wiele serwerów z zainstalowanym i dobrze skonfigurowanym sock5, do tego soft który łączy się przez tak skonfigurowane proxy.
Kiedyś analizowaliśmy jeden tego typu projekt aby go zrobić w oparciu o routery Teltonika, niektóre
Potrzebowalbym narzedzie, ktore weszloby mi na strone i pobralo html z kilkuset podstron, plus od czasu do czasu rozwiazalo captche v2. Zrobilem maly research i nie znalazlem nic rozsadnego/darmowego, serio wymagam tak wiele?
Nie siedze w ogole w webdevie, wiec pisanie jakis skryptow srednio widze.

#webdev #informatyka #webscraping
Pytanie do ogarniętych w temacie #webdev #webscraping

Cięzko będzie napisać scraper sprawdzający OLX pod kątem jakiegoś towaru, ile kosztuje w danym województwie?
Możliwe, że jest coś co pozwoli mi nie wynajdować koła na nowo, stąd moje pytanie.
Zna ktoś jakieś materiały dobre (może być płatny) do scrapingu mobile app? Dane z geo-lokatorów, różne informacje, która dana apka pokazuje etc. Interesuje mnie też pojęcie web traffic dla mobile app - istnieje coś takiego? Chyba tak - dla zwykłych stron jest (worthofweb, similar web). Jak nie przeciążyć serwera no i tez nie zostać wyłapanym jako "bot". Docenię też luźne wskazówki. #programowanie #webscraping