#anonimowemirkowyznania
Cześć, z góry zaznaczam, że nie mam konta na wykopie i nie mam się kogo poradzić. Od razu podam tagi #programowanie #naukaprogramowania #python #scraping #webscraping

Wymyśliłem sobie taki plan. Zapytacie się jaki? Kurna sprytny.( ͡° ͜ʖ ͡°) Chciałbym scrapować nazwy produktów+ceny tych produktów. Słabo się znam na programowaniu, ale myślę, że ogarnę na podstawie filmików na yt i nauczę
  • 5
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Taki co ściąga np. 300tys. produktów z rozbiciem na lokalizacje czyli łącznie +2 mln produktów per sklep w 24h? Jak tak to pisz na pw.


@lol3pdg: takiego nie pisałem, ale nie powinno być to zbyt skomplikowane, teoretycznie potrzeba wiele serwerów z zainstalowanym i dobrze skonfigurowanym sock5, do tego soft który łączy się przez tak skonfigurowane proxy.
Kiedyś analizowaliśmy jeden tego typu projekt aby go zrobić w oparciu o routery Teltonika,
  • Odpowiedz
Strona nie pozwala na prostego requesta html, komunikat "Please turn on Javascript". Czy da się to jakos obejsc?
Sprawdziłem w devtoolsach i wszystkie dane które potrzebuje są na stronie statycznie bez wywoływania żadnego skryptu.
#python #programowanie #webscraping #webdev
  • 7
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Sprawdziłem w devtoolsach i wszystkie dane które potrzebuje są na stronie statycznie bez wywoływania żadnego skryptu


@Spofity: sprawdź jeszcze raz przez prawy klik -> Wyświetl źródło strony ( ͡° ͜ʖ ͡°)
  • Odpowiedz
Potrzebowalbym narzedzie, ktore weszloby mi na strone i pobralo html z kilkuset podstron, plus od czasu do czasu rozwiazalo captche v2. Zrobilem maly research i nie znalazlem nic rozsadnego/darmowego, serio wymagam tak wiele?
Nie siedze w ogole w webdevie, wiec pisanie jakis skryptow srednio widze.

#webdev #informatyka #webscraping
  • 17
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@DreqX: jak nie ma to odwiedzaj stronę odpowiedno często i utrzymuj swoją własną bazę ogłoszeń - będziesz wtedy miał moment dodania danego ogłoszenia, na podstawie swojej własnej bazy,
  • Odpowiedz
Pytanie do ogarniętych w temacie #webdev #webscraping

Cięzko będzie napisać scraper sprawdzający OLX pod kątem jakiegoś towaru, ile kosztuje w danym województwie?
Możliwe, że jest coś co pozwoli mi nie wynajdować koła na nowo, stąd moje pytanie.
  • 7
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Zna ktoś jakieś materiały dobre (może być płatny) do scrapingu mobile app? Dane z geo-lokatorów, różne informacje, która dana apka pokazuje etc. Interesuje mnie też pojęcie web traffic dla mobile app - istnieje coś takiego? Chyba tak - dla zwykłych stron jest (worthofweb, similar web). Jak nie przeciążyć serwera no i tez nie zostać wyłapanym jako "bot". Docenię też luźne wskazówki. #programowanie #webscraping
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

#machinelearning #deeplearning #webscraping #datascience #prawo
Mirki, czy wiecie jak obecnie w Polsce wygląda dokładnie prawo autorskie w kontekście gromadzenia treści na potrzeby naukowe? Mam konkretnie na myśli czy tworząc bazę danych obrazów (i ją nieodpłatnie udostępniając) w celu przetrenowania sieci nie łamię prawa? Czy na potrzeby akademickie jest to legalne? Co jeżeli bym gromadził zdjęcia z wyszukiwarek? Badał ktoś ostatnio taką kwestię?
  • 4
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Pany pytanie odnosnie #webscraping.
Mam problem ze scrapingiem strony, która używa lazy-load flex.
Gdy otwieram ją w przeglądarce wyniki się ładują (tzn. jest kółeczko ale w ulamku sek wyswietla), gdy robię to za pomocą powiedzmy, że bota lub rozszerzenia przeglądarki to odczytuje brak wyników dla wskazanego selectora (wystarczy, że przełączę się na tą zakładkę i wyniki się pojawiają).
Jakiś pomysł jak to ominąć?
Probowałem dorzucić skrypt z:
  • 1
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Potrzebuje zrobić skrypt do parsowania pewnej strony internetowej. Z pewnego źródła wiem że zablokują mnie jak tylko ogarną że leci jakiś skrypt.
Jedyną opcje widzę w tym że musiałbym użyć jakiś darmowych proxi żeby nie zaliczyć bana.

Teraz moje pytanie. Jakie zagrożenia na mnie czekają przy używaniu darmowych serwerów z poziomu kodu?
W requestach nie podaję żadnych wrażliwych danych, jedynie pobieram stronę i później sobie ją obrabiam.

#proxy #security
  • 19
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

#python #programowanie

Potrzebuje napisać dla siebie taki skrypt, żeby sprawdzał dostępność jakiegoś produktu w sklepie IKEA co np 1h i wysyłał do mnie powiadomienie np. emailem. Czy w pythonie będę mógł to zrobić i gdzie szukać informacji? #webscraping
  • 7
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@rador314: Beautifulsoup, requests, selenium. Z tych korzystałem, te polecam.

Jeśli Ikea nie ma dużo JavaScript na stronie - requests + beatifulsoup.
Jeśli Ikea ma dużo JavaScript na stronie - Selenium (uruchamia i kontroluje przeglądarkę - Chrome/Firefox - i z niej czyta informacje)

Myślę, że jak chodzi o częstotliwość sprawdzania, to wcale nie musisz się aż tak ograniczać, żeby to robić raz na godzinę. Raz na 5 minut też nikomu nie zaszkodzi w przypadku
  • Odpowiedz
Jak z #webscraping jest prawnie?

Mam sobie napisany prosty scraper do strony Auchan, ściągający ceny paliw. Chciałbym go sobie wrzucić do portfolio, jednak pytanie - jak jest z legalnością tego? Czy mogę go udostępnić bez "linku" w środku, żeby nikt się nie przyczepił?

#python #selenium
  • 11
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Siemanko Mireczki i Brukselki.

Problem w Pythonie:
Mam taką zagwozdkę - normalnie by odnaleźć/kliknąć/cokolwiek dany obiekt w przeglądarce, robi się inspekcję tego obiektu, potem po tagach się go nawiguje, ładuje się selenium i tyle.

Natomiast co należy zrobić, jeżeli taka strona ma obiekty (guziki), których nie da się kliknąć prawym przyciskiem myszy i dać inspekcji? Najczęściej się to zdarza, jak jakaś aplikacja jest po prostu wyświetlana przez przeglądarkę (w pracy).
  • 5
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@Zarzutkowicz to będą tzw. "brittle selectors" - przy większej ilości danych mogą nie być unikatowe i możesz po akcji "click" nie zawsze trafić tam gdzie chcesz.
Może zmienić się dany element, klasy lub id mogą być generowane dynamicznie, może zmienić się struktura DOM i im więcej zależności (np. "class > id > attribute1 > node" może szybko być już nieaktualne). To samo tyczy się XPath, warto szukać drzewo od razu po
  • Odpowiedz
@MimikX90: Jak masz zmienne IP, to restart routera, żeby odzyskać dostęp. Ale będą Cię blokować jak puszczasz swój skrypt, bo generujesz za duży ruch. Rozważ propozycje kolegów wyżej. Mi pomogło po prostu dodanie opóźnień pomiędzy requestami. Jest znacznie wolniej, ale problem zniknął
  • Odpowiedz
Co zrobic jak nazwa klasy zaczyna sie od spacji?

driver.findelementbyclassname('css-nazwaKlasy')
daje blad:
NoSuchElementException: Message: Unable to
  • 9
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Mirki,

znów #python i troszkę #webscraping

d.add(31,28,'GEN 3.3-0','aippliki/EP_GEN_3_3-0_en.pdf','Teren Górzysty w FIR Warszawa\nMountainous Areas within FIR Warszawa','','','','');
Jest to część javascriptu, potrzebuję z tego
  • 6
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach