Wpis z mikrobloga

mam problem z #airflow
napisałem sobie spidera w #scrapy, na końcu skryptu utworzyłem funkcję:

def extract_data() -> str:
process = CrawlerProcess()
process.crawl(JnkLFMSpider)
process.start()
return JnkLFMSpider.custom_settings['FEED_URI']

importuję funkcję do innego skryptu:

from moj_modul import extract_data
extract_data()
i działa, 3 sekundy i dane pobrane :)

ale gdy chcę uruchomić extract_data z moj_modul przez PythonOperator w Airflow, to nie działa - log od razu pęcznieje do setek megabajtów, a jedyne co w nim widać to tysiące linii 2022-02-20 21:48:32 [airflow.models.taskinstance.TaskInstance] WARNING: 2022-02-20 21:48:32 [scrapy.utils.log] INFO: Scrapy 2.5.1 started (bot: scrapybot); jakiś pomysł co z tym zrobić? :)