#scrapy

07.05.2022, 20:53:17

0

Witam pytongowców!

Dziekuje za nakierowanie mnie na rozwiązanie mojego ostatniego problemu :)

Niestety mam kolejne pytanie - w jaki sposób mogę wyłączyć javascript na stronie używając selenium?

Myślałem

Elkoss

08.05.2022, 07:51:32 via Wykop Mobilny (Android)

1

@fasola_i_groch: @Przemosz: spróbujcie ściągnąć jakiś dodatek do chrome który wyłącza js, i przy odpalaniu go instalować
https://stackoverflow.com/questions/59954995/how-to-install-chrome-extension-using-selenium-python

fasola_i_groch

08.05.2022, 08:18:55

1

@Elkoss: oo nie wiedziałem ze tak można. Przetestuje. Zależy mi na tym żeby selenium bez js'a sprawdzał jakąś wartość -- jeśli się zmieni z x na y to wtedy odświeża stronę juz z js i przechodzi do kolejnych kroków. Jak wspomniałem wcześniej priorytetem jest szybkość tego sprawdzenia :)

Dam znać co udało się stworzyć ( ͡° ͜ʖ ͡°)

janek_

20.02.2022, 22:11:12

1

mam problem z #airflow
napisałem sobie spidera w #scrapy, na końcu skryptu utworzyłem funkcję:

def extract_data() -> str:
 process = CrawlerProcess()

k.....u

konto usunięte 13.11.2021, 20:28:55

0

#scrapy #python #programowanie

siema. nie wiem gdzie robię błąd. To nie pierwszy crawler jakiego piszę ale miałem długą przerwę i gdzieś daję ciała.

chcę ściągnąć ceny z castroramy. Dla przykładu niech będą to dywany. Korzystając z biblioteki #scrapy zadaję takie pytanie:

response.xpath('//span[contains(@class,

k.....u - #scrapy #python #programowanie

siema. nie wiem gdzie robię błąd. To nie ... — **źródło:** comment_1636835231e29yHol9ahlIgnlpX5VkFm.jpg
Pobierz

Spofity

13.11.2021, 21:52:18

2

@koku: selenium wypluł co trzeba

Z.....a

konto usunięte 14.11.2021, 20:16:55

2

@koku: Na cholere to scrapować jak pod spodem to gada jsonem
https://www.castorama.pl/bold_all/data/getProductPriceStockByStore/?isAjax=true&store=1&typeBlock=recommended&needData=1144428,1144427,1144426,1144425,1144424,1144423,1108705,1108702,1107172,1098690,1098684,1098683,1098682,1055998,1055997,1055995,1055994,1055982,1055971,1055970,1029408,1021517,1015206,1005872,1005398,87198,86963,86961,86957,86956,86955,86954,86953,86952,86950,86948,46123

k.....l

konto usunięte 13.09.2021, 20:31:19

0

Ile dajecie requestow przy ustawianiu scrapy? Zawsze ustawiam auto-throttle zeby teoretycznie bylo dobrze, ale to tak leci, ze mam przeczucie jakbym w kazdej chwili mial dostac bana
#scrapy #python

Spofity

13.09.2021, 22:31:05

0

ze mam przeczucie jakbym w kazdej chwili mial dostac bana

@kacper2006pl: to jest najgorsze w scrapowaniu publicznych stron, też zawsze sie tego obawiam xD

Tomz

26.06.2021, 09:13:35

0

Hej, zacząłem się uczyć python i z ciekawości odskoczyłem na chwilę i zacząłem robić poniższy tutorial: https://analityk.edu.pl/web-scraping-z-uzyciem-biblioteki-scrapy-w-pythonie/. Problem pojawia się przy ostatniej komendzie: scrapy crawl truecar -o truecar.csv - terminal zwraca mi, że nie ma takiej komendy, sprawdzając internet wyczytałem, że muszę być w jakimś odpowiednim miejscu w moim projekcie w pycharm, żeby komenda była dostępna, jednak kompletnie nie wiem co zrobić. Ktoś poratuje i wytłumaczy jak noobkowi? :) Jescze jak w

Tomz

26.06.2021, 14:46:22

0

@Henryhenry: dzięki za odpowiedź, tak muszę jeszcze doczytać na spokojnie o tych wirtualnych środowiskach i wielu innych rzeczach, próg wejścia jest dość spory hah :) póki co wieczorem spróbuję wybrać sobie inną stronkę do testów bo wybrałem chyba zbyt skomplikowaną i przetestuje spidera na czymś prostym jak te stronki z tutoriali czy w ogóle dziala.

Henryhenry

26.06.2021, 18:35:21

1

@Tomz: spoko. To prawda, ale z każdym tutorialem i projektem akumuluje się całkiem sporo wiedzy i potem wszystko się pięknie w całość układa :) Co do tutoriali, to jeśli dopiero zaczynasz to warto najpierw robić kropka w kropkę tak jak jak w artykułach i dopiero potem powtarzać ze zmienionymi danymi. Z tego co piszesz wynika że problem nie leży w złożoności strony którą scrapujesz, tylko z samym użyciem narzędzia -

cohontes

11.12.2020, 11:16:03

2

Eh :( i znowu coś zmienili na #otodom i znowu kod trzeba dostosować

#scrapy
#python
#scraping

cohontes

11.12.2020, 11:23:29

0

@Maliizna: no miałem fajnego scrapera, który porównywał mi rzeczy do dashboardu a tutaj dupa, wszystko od nowa

ManfredMacx

12.12.2020, 04:01:23

0

Komentarz usunięty przez autora

AldoAldo

12.05.2020, 18:47:20 via Android

1

Mirki ma ktoś scrappera do olx pobierającego cenę i powierzchnię mieszkania, albo chciałby zrobić lub pomóc mi zrobić? (Ogarnę na tyle że ściągnę te dane z linku z ogłoszeniem, ale nie ogarnę jak zrobić to tak by 'wbijalo' na każde ogłoszenie i stamtąd ściągało dane. )

#programowanie #scraping #python #scrapy #webdev

asterix61

13.05.2020, 06:44:31

1

@AldoAldo: Tylko jeżeli nie masz doświadczenia, to poczytaj o tym jak uchronić się przed banem. Na jednych warsztatach uczyłem grupę 10 osób scrapowania serwisu aukcyjnego i następnego dnia cały budynek miał na niego bana xd

l.....k

konto usunięte 14.05.2020, 19:10:01

1

@Groosik: @AldoAldo: @wellfix
tu macie cos gotowe:
co robi?

sprawdza ilosc stron z nieruchomosciami

z kazdej strony

w.....m

konto usunięte 16.09.2018, 19:22:10

2

#programowanie #python #scrapy
kruci ma ktoś pomysł co zrobić z 405 przy logowaniu przez scrapy? próbowałem zmianę user agenta na coś mniej podejrzanego ale nie pomogło ;//

w.....m

konto usunięte 16.09.2018, 21:45:06

0

@dog_meat:
"

The 405 (Method Not Allowed) status code indicates that the method
received in the request-line is known by the origin server but not
supported by the

dog_meat

16.09.2018, 22:29:53

0

@waldenstrom: to, co zacytowałeś, to dokładnie to, o czym pisałeś. Czyli metoda (czasownik HTTP, czyli np GET albo POST) , którą wysłałeś w zapytaniu nie jest obsługiwana dla danego zasobu (endpointu)

luki_sk

01.09.2018, 14:33:08

3

jak testujecie spidery (scrapy)? Korzystacie z kaset, np vcrpy?

#python #scrapy #scraping #tdd #programowanie

konik_polanowy

28.04.2018, 23:28:23

20

Dzisiaj Learning Scrapy

https://www.packtpub.com/packt/offers/free-learning

#packtpubfreelearning #python #scrapy

konik_polanowy - Dzisiaj Learning Scrapy

https://www.packtpub.com/packt/offers/fr... — **źródło:** comment_YXhDjEjxYKc0GX5jcT8SbLGEZpxolgZa.jpg
Pobierz

toxa

13.09.2018, 12:13:08

0

@H4v3n: priv

H4v3n

13.09.2018, 12:14:20 via iOS

0

Już mam dzięki

destyl

01.07.2016, 13:19:21

1

Zablokowali mi IP na stronie za crawlowanie po niej. Chce dodać opcje w #scrapy żeby używał proxy, lecz co połączy się z nową okazuje się że wchodzi na jakąś gówno stronkę z proxy i nie widać tej na która próbuje się dostać.. A przez przeglądarkę bez problemu strona się ładuje..

Ustawiłem USER_AGET taki jak mam w przeglądarce i dalej to samo...

#programowanie #python #webdev

mephisto4

01.07.2016, 17:53:29

0

@destyl: Crawluj z użyciem TORa

blasted

01.07.2016, 20:09:07

0

@destyl: nastepnym razem nie crawluj tak nachalnie ( ͡° ͜ʖ ͡°)

destyl

10.06.2016, 10:59:46

1

Podczas ładowania strony przez skryp, mam cały czas kod odpowiedzi 404, albo 409. Ładuje przez proxy, ale nie wiem czemu niechce działać.

W przeglądarce odpalam przez proxy działa, a przez skrpyt nie...

Ustawiłem http_proxy na serwer docelowy i dalej nic..

Ma

destyl

10.06.2016, 13:26:45

0

@siteman: nope ( ͡° ʖ̯ ͡°)

siteman

10.06.2016, 13:27:45

0

To nie wiem, poddaje się.

destyl

03.06.2016, 09:14:54

1

Nie wiem czemu, ale chyba yield w #python `e mi nie dziala? :( pisze sobie crawlera w #scrapy, chce aby przeszukał jedna strone zebrał informacje które generują mi nowy linki do stron:

http://pastebin.com/LqxqbC42

A w konsoli wyskakuje takie coś:

destyl

03.06.2016, 10:03:42

0

Tutaj jeszcze staty scrapiego powinien na conajmniej 10k stron wejsc a zatrzymuje sie na drugiej:

2016-06-03 12:02:51 [scrapy] INFO: Dumping Scrapy stats:
{'downloader/requestbytes': 232,
'downloader/requestcount': 1,

destyl

03.06.2016, 10:28:21

0

Zrobiłeem do scrapy.Request musiałem dodać dont_filter=True