Jak wyciagnąć link ze strony po kliknięciu w pewien przycisk który wyswietla zmienioną listę na tej stronie? Link caly czas jest ten sam do konsoli a zmiana dziala jakoś z poziomu javascriptu... To jakbyś wszedł na pogodę na wp.pl i zamiast wp.pl/pogoda masz caly czas wp.pl #scrapping #python #javascript #html #webdev #php #webscraping
Wszystko
Wszystkie
Archiwum
2
Web scraping - techniki pisania web crawlerów w Pythonie - WordPress, SEO, Marke
Web crawler, czy web scraper może okazać się wyjątkowo przydatnym skryptem nie tylko w Twojej pracy, ale także w codziennym życiu. Web scraping może pomóc Ci
z- 5
- #
- #
- #
- 0
Czy działał ktoś kiedyś ze scrapingem danych jeśli chodzi o utwory muzyczne? Potrzebuje wyciągnąć daty premier ok. 500 polskich piosenek. Próbowałem z pythonowym "Spotipy", ale Spotify ma miks w tym przypadku, czasem daty się zgadzają, a czasem są to daty jakieś re-edycji lub po prostu dodania do serwisu. ChatGPT też nie działa - wygląda jakby rzucał pierwszą datą znalezioną w google i tutaj ma się to podobnie jak Spotify, przy wyrywkowym sprawdzaniu,
Spotify ma miks w tym przypadku, czasem daty się zgadzają, a czasem są to daty jakieś re-edycji
Zgadza się, dla mnie to jedna z największych bolączek Spotify. Próbowałeś MusicBrainz?
@maly1234: no tagujesz scraping, webscraping,python to rownie dobrze moze byc 343434343431 ( ͡° ͜ʖ ͡°)
- 0
Mirki, czy i jak można za pomocą node robić web scraping strony, która wymaga logowania?
Dla przykładu załóżmy, że chcę pobierać statystyki oferty ze strony otomoto.
(Załóżmy oczywiście, że strona nie udostępnia takich informacji poprzez API)
#webscraping #nodejs #programowanie #programista15k
Dla przykładu załóżmy, że chcę pobierać statystyki oferty ze strony otomoto.
(Załóżmy oczywiście, że strona nie udostępnia takich informacji poprzez API)
#webscraping #nodejs #programowanie #programista15k
@MlLF: logujesz się wysyłając login i haśło, pobierasz token i potem doddajesz informacje które otrzymasz do każdego requesta w nagłówkach, może jakies ciastka. Jest pełen wachlarz różnych sposobów, ale token jest najpopularniejszym
czy i jak można za pomocą node robić web scraping strony, która wymaga logowania?
@MlLF: Oczywiście, najlepiej przy pomocy Puppeteer.
Scraper używa dedykowanego browsera (Chromium), który jest inicjowany przy każdym uruchomieniu, czyszcząc sesję i ciasteczka. Można też podłączyć go do zainstalowanego Chrome, ale w większości przypadków można tak zaprojektować proces, żeby zawsze zaczynał
Mam jakieś 1k linków do aukcji konkurencji (docelowo pewnie bym chciał do 10k aukcji) z których chcę pobierać dane do raportu w PowerBI, dokładnie cenę i ilość (albo prosto do PowerBi albo przez skrypt pythona i wtedy do PowerBI).
Nie interesuje mnie moment pobrania tych 1k-10 aukcji, bardziej interesuje mnie kwestia odświeżania danych, czyli ceny oraz ilości.
Czy allegro szybko wyłapują takie ruchy przy takiej ilości? Jakiś sposób na obejście, sprawdzone metody? Czy opóźnienia pobierania coś dają? Co jaki czas odświeżać i kiedy? itp.
Jest
Nie interesuje mnie moment pobrania tych 1k-10 aukcji, bardziej interesuje mnie kwestia odświeżania danych, czyli ceny oraz ilości.
Czy allegro szybko wyłapują takie ruchy przy takiej ilości? Jakiś sposób na obejście, sprawdzone metody? Czy opóźnienia pobierania coś dają? Co jaki czas odświeżać i kiedy? itp.
Jest
@junus123: Wszystkie strony blokują dużą liczbę zapytań i odpowiadając @thebigshort - tak, do minuty (max kilku, zależy od ilości zapytań) Cię wyłapią i będzie captcha. Oczywiście da się obejść, ale do tego potrzebujesz zainwestować w rotator z przyzwoitą pulą.
@fiddle: ja na vpn pobieram skryptem aukcje z kategorii od kiedy zablokowali API i wyłapuję bana z raz na miesiąc i wystarczy zmienić serwer... Także jak czegoś nie robisz i nie masz pojęcia to po co pleciesz głupoty?
- 0
#scraping #webscraping #selenium
czy ktoś używał z was serwisów typu zenrows do scrapowania danych? Zazwyczaj radziłem sobie ze zmianą headerów, ewentualnie mniejsze batche, jakieś darmowe proxy. Teraz problem jest taki, że wystarczy otworzyć 5 kart z danej strony i już jest podejrzenie bycia botem :P dlatego rozkminiam nawet takie portale.
czy ktoś używał z was serwisów typu zenrows do scrapowania danych? Zazwyczaj radziłem sobie ze zmianą headerów, ewentualnie mniejsze batche, jakieś darmowe proxy. Teraz problem jest taki, że wystarczy otworzyć 5 kart z danej strony i już jest podejrzenie bycia botem :P dlatego rozkminiam nawet takie portale.
- 0
dlaczego klasy CSS na allegro mają tak dziwne nazwy
czy zmieniają się co jakiś czas czy są stałe
#programowanie #webscraping
czy zmieniają się co jakiś czas czy są stałe
#programowanie #webscraping
@gadatos: może być to jeden z mechanizmów walki z web scrapperami
@gadatos: Aktualnie w webie często nie pisze się już klas w plikach css tylko korzysta z jakichś mechanizmów typu styled-components czy scss/sass, które w czasie budowy zmieniają nazwy na hashe (lub coś innego w zależności od libki). Głównym celem jest unikanie kolizji nazw (sytuacja gdzie różne klasy dzielą tą samą nazwę)
- 0
jest jakiś sposób żeby allegro nie wykrywało bota napisanego w js i #puppeteer ?
#programowanie #javascript #webscraping
#programowanie #javascript #webscraping
- 0
#paywall #chatgpt #piractwo #webscraping
Podobno ChatGPT mógł obejść paywalle.
Jak?
Czy jest jakiś sposób, żeby dostać się do treści ze strony? Jeśli tak, to jak?
Podobno ChatGPT mógł obejść paywalle.
Jak?
Czy jest jakiś sposób, żeby dostać się do treści ze strony? Jeśli tak, to jak?
@mk321: Info na jednej ze stron do omijania paywalla:
Pomysł jest dość prosty: serwisy informacyjne chcą, by Google indeksował ich treści, by pojawiały się one w wynikach wyszukiwania. Nie pokazują więc paywalla robotowi indeksującemu Google. Korzystamy na tym, ponieważ crawler Google buforuje kopię witryny za każdym razem, gdy ją indeksuje.
Hejka #programowanie #webdev #hacking #kiciochpyta #pytaniedoeksperta
Szukam #webscraping który wygeneruje linki do wszystkich treści publikowanych na moim profilu. Linki mogą sobie być zapisane jako adresy url w formacie txt, obojętne. Wystarczą same linki.
TEN WPIS NIE MA ŻADNEGO ZWIĄZKU Z Usunięcie twoich WSZYSTKICH publikowanych treści na wykop.pl ANI Z ARTYLKUŁEM NA telegra.ph.
#niebezpiecznik @niebezpiecznik-pl
Szukam #webscraping który wygeneruje linki do wszystkich treści publikowanych na moim profilu. Linki mogą sobie być zapisane jako adresy url w formacie txt, obojętne. Wystarczą same linki.
TEN WPIS NIE MA ŻADNEGO ZWIĄZKU Z Usunięcie twoich WSZYSTKICH publikowanych treści na wykop.pl ANI Z ARTYLKUŁEM NA telegra.ph.
#niebezpiecznik @niebezpiecznik-pl
Komentarz usunięty przez autora
- 0
@Benzen: tutaj już mało co może pomóc. :D
- 0
Dzień dobry, szukam biblioteki do webscrapingu, najważniejszym parametrem jest chyba szybkość. popróbowałem requests plus bs4, problem jednak w tym że jest wolno. Chce ten kod wsadzić do programu okienkowego, więc najchętniej bym przyspieszył jakoś dostęp do danych, by poprawić płynność.
#python #webscraping
#python #webscraping
- 2
przyspieszył jakoś dostęp do danych, by poprawić płynność.
@Xardin: niech zgadnę, nie scrapujesz w osobnym wątku, prawda? Poczytaj sobie o threadingu.
- 2
więc problemem jest chyba tylko te 2-4 sekundy logowania requests.
@Xardin: brzmi jak by problem był po drugiej stronie. sprawdź ile te requesty trwają.
(i też jestem za scrapy w wielu wątkach)
- 0
chce zescrapować stronę, na której jest dużo textboxów i comboxów, w których są już konkretne wartości. Niestety w kodzie w htmlu wartości z tych boxów nie ma. Czy da się to jakoś zescrapować BeautifulSoupem, czy on po prostu wyciąga tekst z kodu html? Np. żeby znalazł value dla danego id. Dołączam screena jak to wygląda np. na wykopie, gdzie domyślny wartość z textboxa jest w kodzie html, u mnie tego nie ma
- 0
Komentarz usunięty przez autora
@Oake: nie wiem na ile umiesz front ale do scrapowania 10x lepszyn jest nodejs i cheerio. Używasz tego jak jQuery
- 0
Potrzebuję pobrać do #googlesheets aktualną cenę danego produktu z #olx po podaniu linku.
Udało mi się na razie napisać:
Ale raz działa, raz nie i zasysa zbędne dane.
Udało mi się na razie napisać:
=IMPORTXML(URL;"//div[contains(@class,'css-dcwlyx')]")
Ale raz działa, raz nie i zasysa zbędne dane.
@Masto: a regulamin olxa pozwala na scrapowanie? Pewnie nie. Prokuratura poinformowana. Pozdrawiam.
@Thiocomaster: wschodnie boty od pobierania numeru telefonu i kontaktu przez WU jakos nie widza problemu, tez strzelam na nazwy klass bo juz widac dcwlyx jakies takie "losowe" ale na bank do ogarniecia
#anonimowemirkowyznania
Cześć, z góry zaznaczam, że nie mam konta na wykopie i nie mam się kogo poradzić. Od razu podam tagi #programowanie #naukaprogramowania #python #scraping #webscraping
Wymyśliłem sobie taki plan. Zapytacie się jaki? Kurna sprytny.( ͡° ͜ʖ ͡°) Chciałbym scrapować nazwy produktów+ceny tych produktów. Słabo się znam na programowaniu, ale myślę, że ogarnę na podstawie filmików na yt i nauczę się czegoś przydatnego. Chodzi o inną kwestię, wyczytałem w internecie, że za webscraping można dostać bana na ip za zbyt dużo zapytań na stronę. Niby mam częściowo zmienne ip(trzecia i czwarta liczba w ip zmienia się poprzez reset routera, ale boję się o bana na zakres ip(cs 1.6 #pdk) I tutaj mam parę pytań:
1. Zamierzam scrapować ok 50 produktów i ich ceny z jednego linku(w sumie ok 600 produktów=12 linków do poszczególnej listy produktów i cen; 6-8 domen). Oznacza to, że odpalając pythona z jednym url i pobieraniem 100 danych, strona będzie widzieć to jako 1 request czy 100 requestów(bo pod jednym url pobieram 50 nazw i 50 cen)?
2. Wyczytałem również, że można zabezpieczyć się poprzez proxy. Stawiać linuxa mint i proxychaining na wirtualnej maszynie? Czy tylko zmiana ip i user-agent w kodzie pythona? Czy olać to
Cześć, z góry zaznaczam, że nie mam konta na wykopie i nie mam się kogo poradzić. Od razu podam tagi #programowanie #naukaprogramowania #python #scraping #webscraping
Wymyśliłem sobie taki plan. Zapytacie się jaki? Kurna sprytny.( ͡° ͜ʖ ͡°) Chciałbym scrapować nazwy produktów+ceny tych produktów. Słabo się znam na programowaniu, ale myślę, że ogarnę na podstawie filmików na yt i nauczę się czegoś przydatnego. Chodzi o inną kwestię, wyczytałem w internecie, że za webscraping można dostać bana na ip za zbyt dużo zapytań na stronę. Niby mam częściowo zmienne ip(trzecia i czwarta liczba w ip zmienia się poprzez reset routera, ale boję się o bana na zakres ip(cs 1.6 #pdk) I tutaj mam parę pytań:
1. Zamierzam scrapować ok 50 produktów i ich ceny z jednego linku(w sumie ok 600 produktów=12 linków do poszczególnej listy produktów i cen; 6-8 domen). Oznacza to, że odpalając pythona z jednym url i pobieraniem 100 danych, strona będzie widzieć to jako 1 request czy 100 requestów(bo pod jednym url pobieram 50 nazw i 50 cen)?
2. Wyczytałem również, że można zabezpieczyć się poprzez proxy. Stawiać linuxa mint i proxychaining na wirtualnej maszynie? Czy tylko zmiana ip i user-agent w kodzie pythona? Czy olać to
- 1
@AnonimoweMirkoWyznania: to nie nauka na tydzien czy dwa jak nie umiesz w ogole programowac ;)
- 0
Taki co ściąga np. 300tys. produktów z rozbiciem na lokalizacje czyli łącznie +2 mln produktów per sklep w 24h? Jak tak to pisz na pw.
@lol3pdg: takiego nie pisałem, ale nie powinno być to zbyt skomplikowane, teoretycznie potrzeba wiele serwerów z zainstalowanym i dobrze skonfigurowanym sock5, do tego soft który łączy się przez tak skonfigurowane proxy.
Kiedyś analizowaliśmy jeden tego typu projekt aby go zrobić w oparciu o routery Teltonika,
- 1
Strona nie pozwala na prostego requesta html, komunikat "Please turn on Javascript". Czy da się to jakos obejsc?
Sprawdziłem w devtoolsach i wszystkie dane które potrzebuje są na stronie statycznie bez wywoływania żadnego skryptu.
#python #programowanie #webscraping #webdev
Sprawdziłem w devtoolsach i wszystkie dane które potrzebuje są na stronie statycznie bez wywoływania żadnego skryptu.
#python #programowanie #webscraping #webdev
- 0
Potrzebowalbym narzedzie, ktore weszloby mi na strone i pobralo html z kilkuset podstron, plus od czasu do czasu rozwiazalo captche v2. Zrobilem maly research i nie znalazlem nic rozsadnego/darmowego, serio wymagam tak wiele?
Nie siedze w ogole w webdevie, wiec pisanie jakis skryptow srednio widze.
#webdev #informatyka #webscraping
Nie siedze w ogole w webdevie, wiec pisanie jakis skryptow srednio widze.
#webdev #informatyka #webscraping
- 0
Mirki wiecie jak wyciągnąć datę stworzenia ogłoszenia na otomoto? Data pod zdjęciem to oczywiście data odświeżenia, szukałem po requestach ale nie widzę nigdzie.
#otomoto #programowanie #webscraping #scraping
#otomoto #programowanie #webscraping #scraping
Komentarz usunięty przez autora
@DreqX: jak nie ma to odwiedzaj stronę odpowiedno często i utrzymuj swoją własną bazę ogłoszeń - będziesz wtedy miał moment dodania danego ogłoszenia, na podstawie swojej własnej bazy,
Do logowania i poruszania się po stronie używam Mechanize. Wyczytałem, że Mechanize automatycznie przechowuje ciasteczka. Apkę mam napisaną obiektowo i rzeczywiście w każdej klasie oddzielnie inicjowałem mechanize.browser() logując się ponownie. Wymyśliłem, że zaloguję się raz, a potem będę starał się utrzymać tę sesję przy życiu odwołując się do niej z każdego miejsca apki, o tak:
https://pastebin.com/0uwyMJLZ
Pytania:
1. Czy to w ogóle prawidłowe podejście?
2. Jeśli tak, to podpowiecie może sposób w jaki najlepiej by to było przetestować, zanim napiszę adminowi, że zmieniłem poprawiłem i żeby zdjął reCAPTCHE?
1. Wg mojego ograniczonego doświadczenia prawidłowe (tzn sam bym zrobił tak samo/podobnie używając selenium), chociaż metoda login będzie próbowała zwrócić browser nawet jak będziesz miał błąd logowania i tutaj sie wywali całość.
Zastanowił bym się nad dodatkową klasa Browser gdzie ogarniesz logowanie, sprawdzanie czy dalej jesteś zalogowany czy nie, ewentualne ponowne logowanie w razie konieczności itp.
2. Puść skrypt na kilka godzin i zobacz czy sie wykrzaczy bez ponownego logowania