Wpis z mikrobloga

Nie wiem czemu, ale chyba yield w #python `e mi nie dziala? :( pisze sobie crawlera w #scrapy, chce aby przeszukał jedna strone zebrał informacje które generują mi nowy linki do stron:

http://pastebin.com/LqxqbC42

A w konsoli wyskakuje takie coś:

2016-06-03 11:05:17 [scrapy] INFO: Spider opened
2016-06-03 11:05:17 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-06-03 11:05:17 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6024
2016-06-03 11:05:17 [scrapy] DEBUG: Crawled (200) (referer: None)
2016-06-03 11:05:21 [scrapy] DEBUG: Filtered offsite request to 'otodom.pl':
2016-06-03 11:05:21 [scrapy] INFO: Closing spider (finished)

Nie przechodzi do kolejnej metody która go ma obsłużyć.. ( ͡° ʖ̯ ͡°)

#pytanie #programowanie #webdev #pomoc #python 2.7
  • 11
@destyl: Nie znam Scrapy, ale możliwe że przechwytuje stdout, więc żeby zobaczyć swoje "asd" powinieneć użyć loggera. Szybsze i prostsze rozwiązanie żeby sprawdzić czy wchodzi do metody parse_2 - rzuć w niej wyjątek :)
@destyl: A no i generalnie taka konfiguracja nie przejdzie po żadnym linku. Możesz zrobić np:

start_urls = [
'[https://www.google.pl/#q=asd&start=',](https://www.google.pl/#q=asd&start=',)
]

i potem:

def parse(self, response):
i = 10
while(i < 50):
url = response.url + str(i)
yield scrapy.Request(url, callback=self.parse_lists)
i = i + 10
@Viters: ITEM_PIPLINES mam zakomentowane co do drugiego mam wrzuconego requesta w pętli for gdzie generuje sobie link, dałem tak jak zrobiłes dalej to samo...
Tutaj jeszcze staty scrapiego powinien na conajmniej 10k stron wejsc a zatrzymuje sie na drugiej:

2016-06-03 12:02:51 [scrapy] INFO: Dumping Scrapy stats:
{'downloader/requestbytes': 232,
'downloader/request
count': 1,
'downloader/requestmethodcount/GET': 1,
'downloader/responsebytes': 40992,
'downloader/response
count': 1,
'downloader/responsestatuscount/200': 1,
'finishreason': 'finished',
'finish
time': datetime.datetime(2016, 6, 3, 10, 2, 51, 370000),
'logcount/DEBUG': 3,
'log
count/INFO': 7,
'offsite/domains': 1,
'offsite/filtered': 10424,
'requestdepthmax': 1,
'responsereceivedcount': 1,