Pytanie do ogarniętych w temacie #webdev #webscraping

Cięzko będzie napisać scraper sprawdzający OLX pod kątem jakiegoś towaru, ile kosztuje w danym województwie?
Możliwe, że jest coś co pozwoli mi nie wynajdować koła na nowo, stąd moje pytanie.
Zna ktoś jakieś materiały dobre (może być płatny) do scrapingu mobile app? Dane z geo-lokatorów, różne informacje, która dana apka pokazuje etc. Interesuje mnie też pojęcie web traffic dla mobile app - istnieje coś takiego? Chyba tak - dla zwykłych stron jest (worthofweb, similar web). Jak nie przeciążyć serwera no i tez nie zostać wyłapanym jako "bot". Docenię też luźne wskazówki. #programowanie #webscraping
  • Odpowiedz
#machinelearning #deeplearning #webscraping #datascience #prawo
Mirki, czy wiecie jak obecnie w Polsce wygląda dokładnie prawo autorskie w kontekście gromadzenia treści na potrzeby naukowe? Mam konkretnie na myśli czy tworząc bazę danych obrazów (i ją nieodpłatnie udostępniając) w celu przetrenowania sieci nie łamię prawa? Czy na potrzeby akademickie jest to legalne? Co jeżeli bym gromadził zdjęcia z wyszukiwarek? Badał ktoś ostatnio taką kwestię?
Pany pytanie odnosnie #webscraping.
Mam problem ze scrapingiem strony, która używa lazy-load flex.
Gdy otwieram ją w przeglądarce wyniki się ładują (tzn. jest kółeczko ale w ulamku sek wyswietla), gdy robię to za pomocą powiedzmy, że bota lub rozszerzenia przeglądarki to odczytuje brak wyników dla wskazanego selectora (wystarczy, że przełączę się na tą zakładkę i wyniki się pojawiają).
Jakiś pomysł jak to ominąć?
Probowałem dorzucić skrypt z:
window.scrollTo(0,document.body.scrollHeight);
ale albo nie
Potrzebuje zrobić skrypt do parsowania pewnej strony internetowej. Z pewnego źródła wiem że zablokują mnie jak tylko ogarną że leci jakiś skrypt.
Jedyną opcje widzę w tym że musiałbym użyć jakiś darmowych proxi żeby nie zaliczyć bana.

Teraz moje pytanie. Jakie zagrożenia na mnie czekają przy używaniu darmowych serwerów z poziomu kodu?
W requestach nie podaję żadnych wrażliwych danych, jedynie pobieram stronę i później sobie ją obrabiam.

#proxy #security #python #webscraping #
@rador314: Beautifulsoup, requests, selenium. Z tych korzystałem, te polecam.

Jeśli Ikea nie ma dużo JavaScript na stronie - requests + beatifulsoup.
Jeśli Ikea ma dużo JavaScript na stronie - Selenium (uruchamia i kontroluje przeglądarkę - Chrome/Firefox - i z niej czyta informacje)

Myślę, że jak chodzi o częstotliwość sprawdzania, to wcale nie musisz się aż tak ograniczać, żeby to robić raz na godzinę. Raz na 5 minut też nikomu nie zaszkodzi
  • Odpowiedz
Jak z #webscraping jest prawnie?

Mam sobie napisany prosty scraper do strony Auchan, ściągający ceny paliw. Chciałbym go sobie wrzucić do portfolio, jednak pytanie - jak jest z legalnością tego? Czy mogę go udostępnić bez "linku" w środku, żeby nikt się nie przyczepił?

#python #selenium
Zachęcam wszystkich zainteresowanych do nowych filmów z cyklu automatyzacji pracy z rejestrem #bdo:

Automatyczne tworzenie wpisów do KEO z Excela:
https://www.youtube.com/watch?v=u3cernA7mKY&t=7s

Eksport danych z dowolnej karty KPO do Excela:
https://www.youtube.com/watch?v=Lib7_m3VORU

Przykład skryptu Web Scraper do eksportu danych z wielu krat KPO do Excela:
https://www.youtube.com/watch?v=psk-DRCQ-X8

#bdo #odpady #excel #webscraping #webscraper #automatyzacja
Siemanko Mireczki i Brukselki.

Problem w Pythonie:
Mam taką zagwozdkę - normalnie by odnaleźć/kliknąć/cokolwiek dany obiekt w przeglądarce, robi się inspekcję tego obiektu, potem po tagach się go nawiguje, ładuje się selenium i tyle.

Natomiast co należy zrobić, jeżeli taka strona ma obiekty (guziki), których nie da się kliknąć prawym przyciskiem myszy i dać inspekcji? Najczęściej się to zdarza, jak jakaś aplikacja jest po prostu wyświetlana przez przeglądarkę (w pracy).
Czy macie
@Zarzutkowicz to będą tzw. "brittle selectors" - przy większej ilości danych mogą nie być unikatowe i możesz po akcji "click" nie zawsze trafić tam gdzie chcesz.
Może zmienić się dany element, klasy lub id mogą być generowane dynamicznie, może zmienić się struktura DOM i im więcej zależności (np. "class > id > attribute1 > node" może szybko być już nieaktualne). To samo tyczy się XPath, warto szukać drzewo od razu po ostatnim
  • Odpowiedz
#python #request #webscraping #programowanie

Mam problem....

Pobieram w Pythonie za pomocą biblioteki requests kod strony (serwis nie udostępnia API), później z kodu strony wyszukuje dane których potrzebuje (bez bs4).

Świetnie to działało do momentu jak zapisałem gdzieś 10 k danych i nagle strona mnie zbanowała i teraz za każdym razem jak używam requesta wywala mi błąd "response 429".

Odczekałem kilka godzin, dalej wywala mi błąd 429 ( ͡° ͜ʖ ͡
@MimikX90: Jak masz zmienne IP, to restart routera, żeby odzyskać dostęp. Ale będą Cię blokować jak puszczasz swój skrypt, bo generujesz za duży ruch. Rozważ propozycje kolegów wyżej. Mi pomogło po prostu dodanie opóźnień pomiędzy requestami. Jest znacznie wolniej, ale problem zniknął
  • Odpowiedz
Co zrobic jak nazwa klasy zaczyna sie od spacji?

driver.findelementbyclassname('css-nazwaKlasy')
daje blad:
NoSuchElementException: Message: Unable to locate element: .css-nazwaKlasy

zaś
driver.findelementbyclassname(' css-nazwaKlasy')
daje:
InvalidSelectorException: Message: Given css selector expression ". css-nazwaKlasy" is invalid: InvalidSelectorError: '. css-nazwaKlasy' is not a valid selector: ". css-nazwaKlasy"

(z driver.findelementbycssselector('button. css-nazwaKlasy') jest identycznie )

#python #selenium #webscraping
Miruny spod #python #html #webscraping:
jak wyciągnąć z tej stronki samą tabelę drużyn?

http://www.90minut.pl/liga/1/liga10751.html

Tu mam przykładowy, wstępny kod:

import urllib.request
from bs4 import BeautifulSoup
import pandas as pd

html = urllib.request.urlopen("http://www.90minut.pl/liga/1/liga10751.html")
htmlcode = html.read()
bsObject = BeautifulSoup(html
code, "html.parser")

print(bsObject.tr)

#programowanie
plackojad - Miruny spod #python #html #webscraping:
jak wyciągnąć z tej stronki samą...

źródło: comment_94aYAMwRrVwxd4KGstAbixNwezkGfUbo.jpg

Pobierz
Mirki,

znów #python i troszkę #webscraping

d.add(31,28,'GEN 3.3-0','aippliki/EP_GEN_3_3-0_en.pdf','Teren Górzysty w FIR Warszawa\nMountainous Areas within FIR Warszawa','','','','');
Jest to część javascriptu, potrzebuję z tego

1. /aippliki/EPGEN33-0en.pdf - wyciągnąć to i dodać string przed
2. Wyciągnąć tytuł pliku "Teren górzysty..."
3. Mam kilkaset takich linków i potrzebowałbym to zautomatyzować.

urllib pozwolił mi ściągnąć źródło tej strony, ale beautifulsoup nie parsuje javascriptu. Generalnie poradziłem sobie z wyodrębnieniem tych linijek które by
Nie bardzo nawet wiem, jak o to dobrze zapytać, więc mam nadzieję, że #naukaprogramowania pomoże:

Napisałam webscraper w Pythonie do ściągania nagłówków z kilku stron internetowych i chciałabym gdzieś go wrzucić tak, żeby odpalał się co godzinę (albo działał cały czas, a wywołanie poszczególnych funkcji ustawię wewnątrz kodu o określonych godzinach). Google Cloud udostępnia konto na rok z $300 limitu za darmo, ale nie mam pojęcia, jak się za to zabrać. Jakieś
@ManfredMacx: Tak, nada się do nauki i "odhaczenia" AWS na CV. :-)
Praktycznie każdy provider VPS'ów oferuje to samo, ale z drobnymi różnicami. Ja osobiście korzystam z:
- OVH - jest najtańsze na rynku
- DigitalOcean - kiedy potrzebuję czegoś większego niż jest dostępne w OVH
- AWS - kiedy potrzebuję GPU

Polecam kupić https://www.ovh.pl/vps/vps-ssd.xml VPS SSD 1 za 15zł za miesiąc i tam hostować serwisy. Amazon LightSail jest 3* droższy
  • Odpowiedz
#python #webscraping
Czołem. Nie jestem #programista15k ale staram się ułatwiać sobie życie w pracy używając prostych kodów w pythonie. No i teraz znalazłam kod do scrapowania, wypróbowałam w domu i ogółem dałoby radę użyć w pracy do jednego zadania, ale mam dwa problemy:
- nie mogę odpalić kodu w pracy, bo ustawienia proxy nie pozwalają, a niestety nie mam konta administratora na swoim kompie (nawet mi się nie chce zaczynać tego tematu...)
@tusiatko: Możesz podłączyć się do tej strony z kompa w pracy przez przeglądarkę? Jeżeli tak, to po prostu ustaw takie samo proxy dla pythona. Na Linuksie wystarczy ustawić zmienne środowiskowe httpproxy i httpsproxy dla terminala w którym odpalasz Pythona.
  • Odpowiedz
Siema, mam rozkminę dot. scrapowania danych. Chcę zrobić projekt który polegałby na gromadzeniu danych z API jednej strony internetowej i późniejszej ich analizie używając skryptu Pythona. Problem jest taki ze scrapping planuję puścić bez przerwy przez kilka miesięcy. Co waszym zdaniem byłoby najrozsądniejszym rozwiązaniem w takiej sytuacji? AWS VM, pythonanywhere, mały domowy serwer?
#programowanie #informatyka #python #webscraping #api