#webscraping - strona 2

30.05.2022, 15:39:11

0

Jest coś jak #ceneo tylko z API, żebym mógł po nazwie / url produktu znalezc najniższą cene w innych sklepach?

#programowanie #webscraping #scraping #api

Spofity

30.05.2022, 15:50:28

0

@scriptkitty no wlasnie to chyba nie to :D

Spofity

30.05.2022, 15:50:45

0

+ ja szukam dla osób fizycznych, nie mam dg

paw39

12.04.2022, 11:22:39

0

Pytanie do ogarniętych w temacie #webdev #webscraping

Cięzko będzie napisać scraper sprawdzający OLX pod kątem jakiegoś towaru, ile kosztuje w danym województwie?
Możliwe, że jest coś co pozwoli mi nie wynajdować koła na nowo, stąd moje pytanie.

paw39

12.04.2022, 11:24:39

1

@a5f5c1: talon :)

imo0mfg

12.04.2022, 11:30:03 via iOS

3

@paw39: Mam napisany pod olx w pythonie, moge Ci kod po 16 dac na priv

kkrzysiek13

01.03.2022, 09:24:32

0

Zna ktoś jakieś materiały dobre (może być płatny) do scrapingu mobile app? Dane z geo-lokatorów, różne informacje, która dana apka pokazuje etc. Interesuje mnie też pojęcie web traffic dla mobile app - istnieje coś takiego? Chyba tak - dla zwykłych stron jest (worthofweb, similar web). Jak nie przeciążyć serwera no i tez nie zostać wyłapanym jako "bot". Docenię też luźne wskazówki. #programowanie #webscraping

t__l

23.02.2022, 13:28:07

0

#machinelearning #deeplearning #webscraping #datascience #prawo
Mirki, czy wiecie jak obecnie w Polsce wygląda dokładnie prawo autorskie w kontekście gromadzenia treści na potrzeby naukowe? Mam konkretnie na myśli czy tworząc bazę danych obrazów (i ją nieodpłatnie udostępniając) w celu przetrenowania sieci nie łamię prawa? Czy na potrzeby akademickie jest to legalne? Co jeżeli bym gromadził zdjęcia z wyszukiwarek? Badał ktoś ostatnio taką kwestię?

mprzemo

24.02.2022, 08:42:27

0

@t__l: jak nie masz pewności to nie udostępniaj dla swojego dobra.

t__l

24.02.2022, 10:55:11

0

@mprzemo: nie mam pewności dlatego pytam. jeżeli mirko nie pomoże, to podpytam prawników ;p

obieq

11.12.2021, 10:40:02

0

Pany pytanie odnosnie #webscraping.
Mam problem ze scrapingiem strony, która używa lazy-load flex.
Gdy otwieram ją w przeglądarce wyniki się ładują (tzn. jest kółeczko ale w ulamku sek wyswietla), gdy robię to za pomocą powiedzmy, że bota lub rozszerzenia przeglądarki to odczytuje brak wyników dla wskazanego selectora (wystarczy, że przełączę się na tą zakładkę i wyniki się pojawiają).
Jakiś pomysł jak to ominąć?
Probowałem dorzucić skrypt z:
window.scrollTo(0,document.body.scrollHeight);
ale albo nie

Darknov

11.12.2021, 16:40:16

0

Komentarz usunięty przez autora

M.....0

konto usunięte 26.09.2021, 14:56:21

0

Potrzebuje zrobić skrypt do parsowania pewnej strony internetowej. Z pewnego źródła wiem że zablokują mnie jak tylko ogarną że leci jakiś skrypt.
Jedyną opcje widzę w tym że musiałbym użyć jakiś darmowych proxi żeby nie zaliczyć bana.

Teraz moje pytanie. Jakie zagrożenia na mnie czekają przy używaniu darmowych serwerów z poziomu kodu?
W requestach nie podaję żadnych wrażliwych danych, jedynie pobieram stronę i później sobie ją obrabiam.

#proxy #security #python #webscraping #

Tank1991

26.09.2021, 14:58:18

3

@MimikX90: łużyj selenium i prawdziwej przeglądarki

arysto2011

26.09.2021, 16:41:04

2

@MimikX90: możesz udawać sesję przeglądarki poprzez request + pakiet user-agent.

rador314

29.08.2021, 22:05:31 via Android

1

#python #programowanie

Potrzebuje napisać dla siebie taki skrypt, żeby sprawdzał dostępność jakiegoś produktu w sklepie IKEA co np 1h i wysyłał do mnie powiadomienie np. emailem. Czy w pythonie będę mógł to zrobić i gdzie szukać informacji? #webscraping

Ilythiiri

29.08.2021, 22:32:53

3

@rador314: Beautifulsoup, requests, selenium. Z tych korzystałem, te polecam.

Jeśli Ikea nie ma dużo JavaScript na stronie - requests + beatifulsoup.
Jeśli Ikea ma dużo JavaScript na stronie - Selenium (uruchamia i kontroluje przeglądarkę - Chrome/Firefox - i z niej czyta informacje)

Myślę, że jak chodzi o częstotliwość sprawdzania, to wcale nie musisz się aż tak ograniczać, żeby to robić raz na godzinę. Raz na 5 minut też nikomu nie zaszkodzi

arowsky

31.08.2021, 21:34:23

1

@rador314: Nie wiem czy to cos podobnego ale ostatnio widzialem us CS Dojo cos takiego: https://www.youtube.com/watch?v=i-MKEOnPyAI

NewEpisode

16.05.2021, 14:51:54

0

Jak z #webscraping jest prawnie?

Mam sobie napisany prosty scraper do strony Auchan, ściągający ceny paliw. Chciałbym go sobie wrzucić do portfolio, jednak pytanie - jak jest z legalnością tego? Czy mogę go udostępnić bez "linku" w środku, żeby nikt się nie przyczepił?

#python #selenium

NewEpisode

16.05.2021, 18:41:32 via Wykop Mobilny (Android)

6

@SpPin: @luukasek: @aseeon_: napisałem maila do Auchan w tej kwestii, dam znać odnośnie odpowiedzi

NewEpisode

26.09.2021, 17:46:56 via Wykop Mobilny (Android)

3

@MimikX90: nie dostałem. Odpisali że przekazali wiadomość do odpowiedniego działu i cisza, po czym po miesiącu zapytali czy jestem zadowolony z odpowiedzi xD @aseeon_: @luukasek: @SpPin: @thelinker

wbutachorangutan

14.04.2021, 18:29:31

1

Zachęcam wszystkich zainteresowanych do nowych filmów z cyklu automatyzacji pracy z rejestrem #bdo:

Automatyczne tworzenie wpisów do KEO z Excela:
https://www.youtube.com/watch?v=u3cernA7mKY&t=7s

Eksport danych z dowolnej karty KPO do Excela:
https://www.youtube.com/watch?v=Lib7_m3VORU

Przykład skryptu Web Scraper do eksportu danych z wielu krat KPO do Excela:
https://www.youtube.com/watch?v=psk-DRCQ-X8

#bdo #odpady #excel #webscraping #webscraper #automatyzacja

LucaJune

14.04.2021, 18:32:23

0

@wbutachorangutan: taktycznie sobie zapisze

Gravity_die

09.02.2021, 14:26:13

0

Siemanko Mireczki i Brukselki.

Problem w Pythonie:
Mam taką zagwozdkę - normalnie by odnaleźć/kliknąć/cokolwiek dany obiekt w przeglądarce, robi się inspekcję tego obiektu, potem po tagach się go nawiguje, ładuje się selenium i tyle.

Natomiast co należy zrobić, jeżeli taka strona ma obiekty (guziki), których nie da się kliknąć prawym przyciskiem myszy i dać inspekcji? Najczęściej się to zdarza, jak jakaś aplikacja jest po prostu wyświetlana przez przeglądarkę (w pracy).
Czy macie

Zarzutkowicz

11.02.2021, 15:19:12 via Android

0

@orkenzord czemu moze odbić sie czkawka? W sensie ze xpath moze zostac zmieniony?

orkenzord

11.02.2021, 15:29:19 via Android

0

@Zarzutkowicz to będą tzw. "brittle selectors" - przy większej ilości danych mogą nie być unikatowe i możesz po akcji "click" nie zawsze trafić tam gdzie chcesz.
Może zmienić się dany element, klasy lub id mogą być generowane dynamicznie, może zmienić się struktura DOM i im więcej zależności (np. "class > id > attribute1 > node" może szybko być już nieaktualne). To samo tyczy się XPath, warto szukać drzewo od razu po ostatnim

jodla

23.11.2020, 22:31:13

0

Ma ktoś może url do JSONa ze wszystkimi produktami na Media Expert lub Media Markt?
#webscraping

M.....0

konto usunięte 10.10.2020, 21:24:23

1

#python #request #webscraping #programowanie

Mam problem....

Pobieram w Pythonie za pomocą biblioteki requests kod strony (serwis nie udostępnia API), później z kodu strony wyszukuje dane których potrzebuje (bez bs4).

Świetnie to działało do momentu jak zapisałem gdzieś 10 k danych i nagle strona mnie zbanowała i teraz za każdym razem jak używam requesta wywala mi błąd "response 429".

Odczekałem kilka godzin, dalej wywala mi błąd 429 ( ͡° ͜ʖ ͡

mccloud

10.10.2020, 21:27:11

3

@MimikX90: Zmień IP.

ManfredMacx

11.10.2020, 06:23:26

1

@MimikX90: Jak masz zmienne IP, to restart routera, żeby odzyskać dostęp. Ale będą Cię blokować jak puszczasz swój skrypt, bo generujesz za duży ruch. Rozważ propozycje kolegów wyżej. Mi pomogło po prostu dodanie opóźnień pomiędzy requestami. Jest znacznie wolniej, ale problem zniknął

thomeq

24.10.2019, 18:07:52

0

Co zrobic jak nazwa klasy zaczyna sie od spacji?

driver.findelementbyclassname('css-nazwaKlasy')
daje blad:
NoSuchElementException: Message: Unable to locate element: .css-nazwaKlasy

zaś
driver.findelementbyclassname(' css-nazwaKlasy')
daje:
InvalidSelectorException: Message: Given css selector expression ". css-nazwaKlasy" is invalid: InvalidSelectorError: '. css-nazwaKlasy' is not a valid selector: ". css-nazwaKlasy"

(z driver.findelementbycssselector('button. css-nazwaKlasy') jest identycznie )

#python #selenium #webscraping

m0rdeczka

24.10.2019, 18:35:25

3

@thomeq: musisz użyć XPATH i znaleźć podobny do "..." używając "contains"

kotoj

24.10.2019, 20:41:41

0

@thomeq: daj link do strony i powiedz który element chcesz złapać

plackojad

19.09.2019, 13:51:14

2

Miruny spod #python #html #webscraping:
jak wyciągnąć z tej stronki samą tabelę drużyn?

http://www.90minut.pl/liga/1/liga10751.html

Tu mam przykładowy, wstępny kod:

import urllib.request
from bs4 import BeautifulSoup
import pandas as pd

html = urllib.request.urlopen("http://www.90minut.pl/liga/1/liga10751.html")
htmlcode = html.read()
bsObject = BeautifulSoup(htmlcode, "html.parser")

print(bsObject.tr)

#programowanie

plackojad - Miruny spod #python #html #webscraping:
jak wyciągnąć z tej stronki samą... — **źródło:** comment_94aYAMwRrVwxd4KGstAbixNwezkGfUbo.jpg
Pobierz

kadbery

19.09.2019, 15:04:52

1

@plackojad: po słowie class ma być podkreślnik dolny, wykop musiał skasować przy postowaniu

tablica_main2 = soup.find_all("table", class_="main2")

xulek

19.09.2019, 16:24:51

1

@plackojad: dobra rada, zacznij używać jakiegoś normalnego IDE jak PyCharm albo Visual Studio Code to nie będziesz miał problemów z syntaxami

kamil_zdun

14.08.2019, 10:20:55

0

Mirki,

znów #python i troszkę #webscraping

d.add(31,28,'GEN 3.3-0','aippliki/EP_GEN_3_3-0_en.pdf','Teren Górzysty w FIR Warszawa\nMountainous Areas within FIR Warszawa','','','','');

Jest to część javascriptu, potrzebuję z tego

1. /aippliki/EPGEN33-0en.pdf - wyciągnąć to i dodać string przed
2. Wyciągnąć tytuł pliku "Teren górzysty..."
3. Mam kilkaset takich linków i potrzebowałbym to zautomatyzować.

urllib pozwolił mi ściągnąć źródło tej strony, ale beautifulsoup nie parsuje javascriptu. Generalnie poradziłem sobie z wyodrębnieniem tych linijek które by

JanuszChrystus

14.08.2019, 11:18:27

2

@kamil_zdun: https://html.python-requests.org/ do parsowania JS albo wyrazenie regularne do pobrania odpowiednich wartosci https://regex101.com/ polecam tutaj powklejac linijki, z ktorych chcesz sciagnac dane a pozniej baw sie regexem do wyluskania tego co chcesz.

kamil_zdun

18.08.2019, 11:48:43

0

@keczub_: nie, chcę zapisywać pliki aip na dysku do dostępu online

S.....n

konto usunięte 12.05.2019, 19:50:03

0

Nie bardzo nawet wiem, jak o to dobrze zapytać, więc mam nadzieję, że #naukaprogramowania pomoże:

Napisałam webscraper w Pythonie do ściągania nagłówków z kilku stron internetowych i chciałabym gdzieś go wrzucić tak, żeby odpalał się co godzinę (albo działał cały czas, a wywołanie poszczególnych funkcji ustawię wewnątrz kodu o określonych godzinach). Google Cloud udostępnia konto na rok z $300 limitu za darmo, ale nie mam pojęcia, jak się za to zabrać. Jakieś

d.....a

konto usunięte 13.05.2019, 07:18:08

1

@ManfredMacx: Tak, nada się do nauki i "odhaczenia" AWS na CV. :-)
Praktycznie każdy provider VPS'ów oferuje to samo, ale z drobnymi różnicami. Ja osobiście korzystam z:
- OVH - jest najtańsze na rynku
- DigitalOcean - kiedy potrzebuję czegoś większego niż jest dostępne w OVH
- AWS - kiedy potrzebuję GPU

Polecam kupić https://www.ovh.pl/vps/vps-ssd.xml VPS SSD 1 za 15zł za miesiąc i tam hostować serwisy. Amazon LightSail jest 3* droższy

Krasiu

13.05.2019, 09:44:25

2

@Snuffkin: Po pierwsze stwórz wirtualną maszynę, @zapoznalem napisał Ci co wyklikać, wystarczy najtańsza konfiguracja na linuxie (CentOS chyba domyślnie tworzy - może być)

tusiatko

09.05.2019, 08:25:46 via iOS

0

#python #webscraping
Czołem. Nie jestem #programista15k ale staram się ułatwiać sobie życie w pracy używając prostych kodów w pythonie. No i teraz znalazłam kod do scrapowania, wypróbowałam w domu i ogółem dałoby radę użyć w pracy do jednego zadania, ale mam dwa problemy:
- nie mogę odpalić kodu w pracy, bo ustawienia proxy nie pozwalają, a niestety nie mam konta administratora na swoim kompie (nawet mi się nie chce zaczynać tego tematu...)

y.....l

konto usunięte 09.05.2019, 08:34:25

5

@tusiatko: Możesz podłączyć się do tej strony z kompa w pracy przez przeglądarkę? Jeżeli tak, to po prostu ustaw takie samo proxy dla pythona. Na Linuksie wystarczy ustawić zmienne środowiskowe httpproxy i httpsproxy dla terminala w którym odpalasz Pythona.

maciejg

09.05.2019, 14:50:46 via Android

0

@tusiatko
@yggdrasil dobrze prawi. Poszukaj, poczytaj, pokombinuj.

ojsak

06.03.2019, 18:33:24

1

Siema, mam rozkminę dot. scrapowania danych. Chcę zrobić projekt który polegałby na gromadzeniu danych z API jednej strony internetowej i późniejszej ich analizie używając skryptu Pythona. Problem jest taki ze scrapping planuję puścić bez przerwy przez kilka miesięcy. Co waszym zdaniem byłoby najrozsądniejszym rozwiązaniem w takiej sytuacji? AWS VM, pythonanywhere, mały domowy serwer?
#programowanie #informatyka #python #webscraping #api

dziekuje

06.03.2019, 18:48:39 via iOS

3

@ojsak: malinka albo jakikolwiek vps

dziekuje

06.03.2019, 19:43:35 via iOS

2

@ojsak: ewentualnie archiwizuj sobie te dane wysyłaj na chmurę ( ͡° ͜ʖ ͡°), albo pobieraj do siebie na PC.

dziekuje

09.12.2018, 12:50:37 via iOS

1

#webscraping #programowanie

Szukam funkcjonalności do bota. Mam już parę rzeczy typu notowania walut, kryptowalut itd.
Jakie informacje chcielibyście codziennie dostawać w przystępnej formie?

dziekuje

09.12.2018, 18:36:01

1

@Uzytkownik_Wykopu: Spróbuję, zobaczę ja to wyjdzie.

dziekuje

09.12.2018, 22:23:32

1

@Uzytkownik_Wykopu: Wrzucę na testy, jak się będzie zmieniała topologia strony to raczej to porzucę. Proline niestety nie ma aktualnie nic w "headshot". Jak znasz jeszcze jakieś strony to podrzuć ( ͡° ͜ʖ ͡°).
OUTPUT: