Witam pytongowców!

Dziekuje za nakierowanie mnie na rozwiązanie mojego ostatniego problemu :)

Niestety mam kolejne pytanie - w jaki sposób mogę wyłączyć javascript na stronie używając selenium?

Myślałem
  • 8
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@Elkoss: oo nie wiedziałem ze tak można. Przetestuje. Zależy mi na tym żeby selenium bez js'a sprawdzał jakąś wartość -- jeśli się zmieni z x na y to wtedy odświeża stronę juz z js i przechodzi do kolejnych kroków. Jak wspomniałem wcześniej priorytetem jest szybkość tego sprawdzenia :)

Dam znać co udało się stworzyć ( ͡° ͜ʖ ͡°)
  • Odpowiedz
mam problem z #airflow
napisałem sobie spidera w #scrapy, na końcu skryptu utworzyłem funkcję:

def extract_data() -> str:
process = CrawlerProcess()
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

#scrapy #python #programowanie

siema. nie wiem gdzie robię błąd. To nie pierwszy crawler jakiego piszę ale miałem długą przerwę i gdzieś daję ciała.

chcę ściągnąć ceny z castroramy. Dla przykładu niech będą to dywany. Korzystając z biblioteki #scrapy zadaję takie pytanie:

response.xpath('//span[contains(@class,
k.....u - #scrapy #python #programowanie

siema. nie wiem gdzie robię błąd. To nie ...

źródło: comment_1636835231e29yHol9ahlIgnlpX5VkFm.jpg

Pobierz
  • 21
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Ile dajecie requestow przy ustawianiu scrapy? Zawsze ustawiam auto-throttle zeby teoretycznie bylo dobrze, ale to tak leci, ze mam przeczucie jakbym w kazdej chwili mial dostac bana
#scrapy #python
  • 1
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Hej, zacząłem się uczyć python i z ciekawości odskoczyłem na chwilę i zacząłem robić poniższy tutorial: https://analityk.edu.pl/web-scraping-z-uzyciem-biblioteki-scrapy-w-pythonie/. Problem pojawia się przy ostatniej komendzie: scrapy crawl truecar -o truecar.csv - terminal zwraca mi, że nie ma takiej komendy, sprawdzając internet wyczytałem, że muszę być w jakimś odpowiednim miejscu w moim projekcie w pycharm, żeby komenda była dostępna, jednak kompletnie nie wiem co zrobić. Ktoś poratuje i wytłumaczy jak noobkowi? :) Jescze jak w
  • 6
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@Henryhenry: dzięki za odpowiedź, tak muszę jeszcze doczytać na spokojnie o tych wirtualnych środowiskach i wielu innych rzeczach, próg wejścia jest dość spory hah :) póki co wieczorem spróbuję wybrać sobie inną stronkę do testów bo wybrałem chyba zbyt skomplikowaną i przetestuje spidera na czymś prostym jak te stronki z tutoriali czy w ogóle dziala.
  • Odpowiedz
@Tomz: spoko. To prawda, ale z każdym tutorialem i projektem akumuluje się całkiem sporo wiedzy i potem wszystko się pięknie w całość układa :) Co do tutoriali, to jeśli dopiero zaczynasz to warto najpierw robić kropka w kropkę tak jak jak w artykułach i dopiero potem powtarzać ze zmienionymi danymi. Z tego co piszesz wynika że problem nie leży w złożoności strony którą scrapujesz, tylko z samym użyciem narzędzia -
  • Odpowiedz
Mirki ma ktoś scrappera do olx pobierającego cenę i powierzchnię mieszkania, albo chciałby zrobić lub pomóc mi zrobić? (Ogarnę na tyle że ściągnę te dane z linku z ogłoszeniem, ale nie ogarnę jak zrobić to tak by 'wbijalo' na każde ogłoszenie i stamtąd ściągało dane. )

#programowanie #scraping #python #scrapy #webdev
  • 22
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@AldoAldo: Tylko jeżeli nie masz doświadczenia, to poczytaj o tym jak uchronić się przed banem. Na jednych warsztatach uczyłem grupę 10 osób scrapowania serwisu aukcyjnego i następnego dnia cały budynek miał na niego bana xd
  • Odpowiedz
@waldenstrom: to, co zacytowałeś, to dokładnie to, o czym pisałeś. Czyli metoda (czasownik HTTP, czyli np GET albo POST) , którą wysłałeś w zapytaniu nie jest obsługiwana dla danego zasobu (endpointu)
  • Odpowiedz
Zablokowali mi IP na stronie za crawlowanie po niej. Chce dodać opcje w #scrapy żeby używał proxy, lecz co połączy się z nową okazuje się że wchodzi na jakąś gówno stronkę z proxy i nie widać tej na która próbuje się dostać.. A przez przeglądarkę bez problemu strona się ładuje..

Ustawiłem USER_AGET taki jak mam w przeglądarce i dalej to samo...

#programowanie #python #webdev
  • 5
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Podczas ładowania strony przez skryp, mam cały czas kod odpowiedzi 404, albo 409. Ładuje przez proxy, ale nie wiem czemu niechce działać.

W przeglądarce odpalam przez proxy działa, a przez skrpyt nie...

Ustawiłem http_proxy na serwer docelowy i dalej nic..

Ma
  • 24
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Tutaj jeszcze staty scrapiego powinien na conajmniej 10k stron wejsc a zatrzymuje sie na drugiej:

2016-06-03 12:02:51 [scrapy] INFO: Dumping Scrapy stats:
{'downloader/requestbytes': 232,
'downloader/request
count': 1,
  • Odpowiedz