Darmowe warsztaty z web scrapingu i analizy danych – Warszawa, lipiec 2025

Cześć Wykopowicze 👋

Jeśli interesujecie się web scrapingiem, automatyzacją zbierania danych lub analizą danych z sieci, to mamy coś dla Was!

Firma
  • 3
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@fadi-aidi: nie jestem nawet w połowie zaawansowany w tego typu tematach i dopiero zaczynam. Czy wyciągnę coś interesującego z tego szkolenia czy tylko zajmę niepotrzebnie miejsce
  • Odpowiedz
#prawo #informatyka #it #cyberbezpieczenstwo #webscraping
Mam scrapper który zbiera publicznie dostępne dane (dostępne bez żadnej autoryzacji). Jednak strona internetowa, z której pochodzą te dane, zabrania w regulaminie korzystania z botów do ściągania danych. Dodatkowo, udostępnia płatne API na te dane.
Czy w świetle prawa korzystanie z tego scrappera do ściągania danych, które potem są wykorzystywane w celach komercyjnych jest nielegalne?
  • 4
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Macie jakiś działający sposób na wyciąganie oceny filmów z filmweba?
Python i Grok/DeepSeek się poddają, tzn. skrypt czasem ściągnie czasem nie, nie wiem od czego to zależy. Stąd pytam, może już jest jakaś pancerna biliblioteka ;)

Może problem też jest w szukaniu filmu, tj. mam search bar, podpowiada tytuły na bazie IMDB (tytuł i rok), i chyba ciężko czasem to dopasować pod filmweb.

#python #programowanie #webscraping
  • 2
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Wie ktoś może, w jaki sposób działają aplikacje/strony z gazetkami sklepowymi? Chodzi mi o takie jak Blix, Goodie, gazetki.pl, które wyświetlają gazetki reklamowe z różnych sklepów, wraz z datą obowiązywania promocji, czy nawet wyciągając konkretne promocje osobno, żeby można było je sobie zapisać.

Mają udostępnione niepubliczne API? Web scrapping ze stron sklepów? Wyciąganie danych z obrazów OCR-em?
Nie wydaje mi się, żeby ktoś ręcznie to wyciągał, wpisywał i oznaczał, bo jest tego
  • 3
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Staram się poduczyć trochę o programowaniu, no a zawsze się mówi, że najlepiej gdy ma się jakiś projekt. Wymyśliłem sobie, że zliczę sobie łączny czas jaki poświęciłem, na obejrzenie filmów i seriali jakie mam zapisane w bazie Filmwebu. Jako że nie wyciągnę tych informacji z ich danych (nawet nie o to by mi chodziło w tym projekcie), chciałbym zrozumieć jak mogę zautomatyzować proces ściągania tych danych, po prostu korzystając z tych informacji
interpenetrate - Staram się poduczyć trochę o programowaniu, no a zawsze się mówi, że...

źródło: obraz_2024-10-18_224638301

Pobierz
  • 26
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@interpenetrate: Idea odpowienia, ale wybór kiepski. Scrappowanie stron sprawi, że pewnie większość problemów będziesz rozwiązywał właśnie w tym zakresie. I często nie będziesz pewien czy problem jest z Twoim kodem czy może jednak z tym jak strona się 'wczytała'. Plus się będziesz męczyć z selectorami. I znów będziesz się zastanawiał czy Twój kod jest zły, czy może selector źle napisany.

Trust me. Znajdź sobie coś innego.
Mogę Ci nawet spróbować
  • Odpowiedz
@interpenetrate: Pewnie. Tak jak wczesniej pisałem. Niestety mój ostatni sarkastyczny komentarz nie mógł być bardziej rozbudowany - dziś akurat pare godzin spędziłem w aucie jadąc po psa mojej siostry.
Nevermind.

Jak bardzo lubisz filmy to weź sobie jakiś JSON z informacjami o filmach. Możesz na przykład któryś z tych:
https://github.com/prust/wikipedia-movie-data
Sugeruję coś z ostatnich dekad, jest
  • Odpowiedz
Robię apkę w pythonie, która scrapuje jedną ze stron. Za zgodą admina, ale rzucił we mnie reCAPTCHA i napisał, żebym ograniczył liczbę logowań i korzystał z ciasteczka, które jest ważne przez godzinę.
Do logowania i poruszania się po stronie używam Mechanize. Wyczytałem, że Mechanize automatycznie przechowuje ciasteczka. Apkę mam napisaną obiektowo i rzeczywiście w każdej klasie oddzielnie inicjowałem mechanize.browser() logując się ponownie. Wymyśliłem, że zaloguję się raz, a potem będę starał się utrzymać
  • 1
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@Drmscape2:
1. Wg mojego ograniczonego doświadczenia prawidłowe (tzn sam bym zrobił tak samo/podobnie używając selenium), chociaż metoda login będzie próbowała zwrócić browser nawet jak będziesz miał błąd logowania i tutaj sie wywali całość.

Zastanowił bym się nad dodatkową klasa Browser gdzie ogarniesz logowanie, sprawdzanie czy dalej jesteś zalogowany czy nie, ewentualne ponowne logowanie w razie konieczności itp.

2. Puść skrypt na kilka godzin i zobacz czy sie wykrzaczy bez ponownego logowania
  • Odpowiedz
Jak wyciagnąć link ze strony po kliknięciu w pewien przycisk który wyswietla zmienioną listę na tej stronie? Link caly czas jest ten sam do konsoli a zmiana dziala jakoś z poziomu javascriptu... To jakbyś wszedł na pogodę na wp.pl i zamiast wp.pl/pogoda masz caly czas wp.pl #scrapping #python #javascript #html #webdev #php #webscraping
  • 3
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@fifiak: Rozpoczynasz przygodę ze grzebaniem od front-endu, poczytaj o Selenium albo playwright, frameworki które mogą 'udawać, że są zwykłym użytkownikiem (głównie stosowane do testów).

W ten sposób łatwo podjąć interakcję ze skryptami i dostać się do interesujących nas danych.

PS. Często otwierając konsolę deweloperską możemy znaleźć adresy URL do niepublicznych API które strona wykorzystuje do pobierania danych - jeśli nie masz zamiaru robić nic 'złego' to można w ten sposób
  • Odpowiedz
via Android
  • 0
@fifiak a przykladowo jak w operze przez nagranie sesji i klikania mam jsob albo jakiś puppeteer to da rade łatwo to odpalić pythonem albo z poziomu basha? Bo nie wiem jak teraz wykorzystac ten kod a sa tam xpathy, clicki itp
  • Odpowiedz
Czy działał ktoś kiedyś ze scrapingem danych jeśli chodzi o utwory muzyczne? Potrzebuje wyciągnąć daty premier ok. 500 polskich piosenek. Próbowałem z pythonowym "Spotipy", ale Spotify ma miks w tym przypadku, czasem daty się zgadzają, a czasem są to daty jakieś re-edycji lub po prostu dodania do serwisu. ChatGPT też nie działa - wygląda jakby rzucał pierwszą datą znalezioną w google i tutaj ma się to podobnie jak Spotify, przy wyrywkowym sprawdzaniu,
  • 4
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Spotify ma miks w tym przypadku, czasem daty się zgadzają, a czasem są to daty jakieś re-edycji


Zgadza się, dla mnie to jedna z największych bolączek Spotify. Próbowałeś MusicBrainz?
  • Odpowiedz
Mirki, czy i jak można za pomocą node robić web scraping strony, która wymaga logowania?
Dla przykładu załóżmy, że chcę pobierać statystyki oferty ze strony otomoto.
(Załóżmy oczywiście, że strona nie udostępnia takich informacji poprzez API)

#webscraping #nodejs #programowanie #programista15k
  • 7
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@MlLF: logujesz się wysyłając login i haśło, pobierasz token i potem doddajesz informacje które otrzymasz do każdego requesta w nagłówkach, może jakies ciastka. Jest pełen wachlarz różnych sposobów, ale token jest najpopularniejszym
  • Odpowiedz
czy i jak można za pomocą node robić web scraping strony, która wymaga logowania?


@MlLF: Oczywiście, najlepiej przy pomocy Puppeteer.

Scraper używa dedykowanego browsera (Chromium), który jest inicjowany przy każdym uruchomieniu, czyszcząc sesję i ciasteczka. Można też podłączyć go do zainstalowanego Chrome, ale w większości przypadków można tak zaprojektować proces, żeby zawsze zaczynał
  • Odpowiedz
Mam jakieś 1k linków do aukcji konkurencji (docelowo pewnie bym chciał do 10k aukcji) z których chcę pobierać dane do raportu w PowerBI, dokładnie cenę i ilość (albo prosto do PowerBi albo przez skrypt pythona i wtedy do PowerBI).

Nie interesuje mnie moment pobrania tych 1k-10 aukcji, bardziej interesuje mnie kwestia odświeżania danych, czyli ceny oraz ilości.

Czy allegro szybko wyłapują takie ruchy przy takiej ilości? Jakiś sposób na obejście, sprawdzone metody? Czy
  • 8
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@junus123: Wszystkie strony blokują dużą liczbę zapytań i odpowiadając @thebigshort - tak, do minuty (max kilku, zależy od ilości zapytań) Cię wyłapią i będzie captcha. Oczywiście da się obejść, ale do tego potrzebujesz zainwestować w rotator z przyzwoitą pulą.
  • Odpowiedz
#scraping #webscraping #selenium

czy ktoś używał z was serwisów typu zenrows do scrapowania danych? Zazwyczaj radziłem sobie ze zmianą headerów, ewentualnie mniejsze batche, jakieś darmowe proxy. Teraz problem jest taki, że wystarczy otworzyć 5 kart z danej strony i już jest podejrzenie bycia botem :P dlatego rozkminiam nawet takie portale.
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@gadatos: Aktualnie w webie często nie pisze się już klas w plikach css tylko korzysta z jakichś mechanizmów typu styled-components czy scss/sass, które w czasie budowy zmieniają nazwy na hashe (lub coś innego w zależności od libki). Głównym celem jest unikanie kolizji nazw (sytuacja gdzie różne klasy dzielą tą samą nazwę)
  • Odpowiedz
@mk321: Info na jednej ze stron do omijania paywalla:

Pomysł jest dość prosty: serwisy informacyjne chcą, by Google indeksował ich treści, by pojawiały się one w wynikach wyszukiwania. Nie pokazują więc paywalla robotowi indeksującemu Google. Korzystamy na tym, ponieważ crawler Google buforuje kopię witryny za każdym razem, gdy ją indeksuje.
  • Odpowiedz
Hejka #programowanie #webdev #hacking #kiciochpyta #pytaniedoeksperta

Szukam #webscraping który wygeneruje linki do wszystkich treści publikowanych na moim profilu. Linki mogą sobie być zapisane jako adresy url w formacie txt, obojętne. Wystarczą same linki.

TEN WPIS NIE MA ŻADNEGO ZWIĄZKU Z Usunięcie twoich WSZYSTKICH publikowanych treści na wykop.pl ANI Z ARTYLKUŁEM NA telegra.ph.

#niebezpiecznik @niebezpiecznik-pl
k.....r - Hejka #programowanie #webdev #hacking #kiciochpyta #pytaniedoeksperta

Szuk...

źródło: j4gD4fw

Pobierz
  • 5
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Dzień dobry, szukam biblioteki do webscrapingu, najważniejszym parametrem jest chyba szybkość. popróbowałem requests plus bs4, problem jednak w tym że jest wolno. Chce ten kod wsadzić do programu okienkowego, więc najchętniej bym przyspieszył jakoś dostęp do danych, by poprawić płynność.
#python #webscraping
  • 9
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

przyspieszył jakoś dostęp do danych, by poprawić płynność.


@Xardin: niech zgadnę, nie scrapujesz w osobnym wątku, prawda? Poczytaj sobie o threadingu.
  • Odpowiedz
więc problemem jest chyba tylko te 2-4 sekundy logowania requests.


@Xardin: brzmi jak by problem był po drugiej stronie. sprawdź ile te requesty trwają.
(i też jestem za scrapy w wielu wątkach)
  • Odpowiedz
chce zescrapować stronę, na której jest dużo textboxów i comboxów, w których są już konkretne wartości. Niestety w kodzie w htmlu wartości z tych boxów nie ma. Czy da się to jakoś zescrapować BeautifulSoupem, czy on po prostu wyciąga tekst z kodu html? Np. żeby znalazł value dla danego id. Dołączam screena jak to wygląda np. na wykopie, gdzie domyślny wartość z textboxa jest w kodzie html, u mnie tego nie ma
Oake - chce zescrapować stronę, na której jest dużo textboxów i comboxów, w których s...

źródło: comment_1671025447fewUSZkFBzylXkI4QQ66KK.jpg

Pobierz
  • 11
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Potrzebuję pobrać do #googlesheets aktualną cenę danego produktu z #olx po podaniu linku.

Udało mi się na razie napisać:

=IMPORTXML(URL;"//div[contains(@class,'css-dcwlyx')]")
Ale raz działa, raz nie i zasysa zbędne dane.
  • 3
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach