mam problem z #airflow
napisałem sobie spidera w #scrapy, na końcu skryptu utworzyłem funkcję:
importuję funkcję do innego skryptu:
i działa, 3 sekundy i dane pobrane :)
ale gdy chcę uruchomić
napisałem sobie spidera w #scrapy, na końcu skryptu utworzyłem funkcję:
def extract_data() -> str:
process = CrawlerProcess()
process.crawl(JnkLFMSpider)
process.start()
return JnkLFMSpider.custom_settings['FEED_URI']
importuję funkcję do innego skryptu:
from moj_modul import extract_data
extract_data()
i działa, 3 sekundy i dane pobrane :)
ale gdy chcę uruchomić
extract_data
z moj_modul
przez PythonOperator
w Airflow, to nie działa - log od razu pęcznieje do setek megabajtów, a jedyne co w nim widać
Dziekuje za nakierowanie mnie na rozwiązanie mojego ostatniego problemu :)
Niestety mam kolejne pytanie - w jaki sposób mogę wyłączyć javascript na stronie używając selenium?
Myślałem nawet o połączeniu scrapy z selenium - bez js'a potrzebuje sprawdzić jedną wartość, jeśli jest zmiana z x na y to ma dopiero wtedy selenium wykonać swoją robotę. Zależy mi oczywiście na szybkości działaniu (to sprawdzanie).
Może scrapy to dobry pomysł ale nie wiem
https://stackoverflow.com/questions/59954995/how-to-install-chrome-extension-using-selenium-python
Dam znać co udało się stworzyć ( ͡° ͜ʖ ͡°)