#python #programowanie #dataengineering

Hej wszystkim, na codzień używam pythona ale do #datascience w pracy.

Chciałbym postawić sobie dwa dashbordy/raporty dla samego siebie. Z programistycznego punktu widzenia wiem dokładnie co chce zrobić i co ma być efektem końcowym. To czego nie wiem w to jaki sposób to zrobić bo w pracy dodaje nowe procesy na #airflow jednak nigdy nie stawiałem takiego czegoś u siebie (mam kompa z Windowsem więc nie wiem czy jest
Microsoft chyba zrozumiał, że jego narzędzie do ETL/ELT/orchestration w cloudzie jest takie se i brakuje mu wielu przydatnych usprawnień. Więc po prostu dodał Airflow do niego xD Też fajnie. W sumie po co konkurować z open sourcami, skoro można je zaimplementować i skosić za to kasę od przedsiębiorstw.

https://techcommunity.microsoft.com/t5/azure-data-factory-blog/introducing-managed-airflow-in-azure-data-factory/ba-p/3730151

#apacheairflow #airflow #etl #businessintelligence #azuredatafactory #azure
przecietnyczlowiek - Microsoft chyba zrozumiał, że jego narzędzie do ETL/ELT/orchestr...

źródło: large

Pobierz
bawił się ktoś może w robienie customowego monitoringu dla Airflow?
medytuję nad naklepaniem jakiegoś dashboarda który będzie zbierał statusy wykonania DAGów i pokazywał wszystko w jednym miejscu, tylko jeszcze nie wiem czy to sensowny pomysł (bo cuda niewidy pan hindus czasem robi z naszą instancją ) a nie jestem ownerem i nie chce mi się ręcznie klikać ( ͡° ͜ʖ ͡°)
czyli - jaaaaakby ktoś "been there done
mam problem z #airflow
napisałem sobie spidera w #scrapy, na końcu skryptu utworzyłem funkcję:

def extract_data() -> str:
process = CrawlerProcess()
process.crawl(JnkLFMSpider)
process.start()
return JnkLFMSpider.custom_settings['FEED_URI']

importuję funkcję do innego skryptu:

from moj_modul import extract_data
extract_data()
i działa, 3 sekundy i dane pobrane :)

ale gdy chcę uruchomić extract_data z moj_modul przez PythonOperator w Airflow, to nie działa - log od razu pęcznieje do setek megabajtów, a jedyne co w nim widać
Mam kilka mikroserwisów które zrzucają eventy do kafki. Chciałbym z tych eventów wyciagnąc pare statystyk i raportów i zastanawiam się jak to zrobić zgodnie ze sztuką. Mam dwa pomysły:

- kolejny mikroserwis, ktory zczytuje te eventy, na bierząco zlicza statystyki i robi inserty i update do nowej bazy relacyjnej np postgres
- zacząłem troche czytac w tym temacie to natknąłem się na takie rzeczy jak ETL, #businessintelligence a potem Apache Airflow. Co
#programowanie #gcp #bigquery
#airflow #composer

W dodatkowej robocie zostałem rzucony na wykonanie prostej automatyzacji. Zgodziłem się jednak po otrzymaniu dostępów wyszło że wszystko stoi na gcp, a skrypty są poszczane przez airflow. Nigdy nie pracowałem wiec idzie ciężej niż jak bym miał to puszczać na VMce.

Sprawa wygląda tak że mam tabelę z incydentami i operatorem BigqueryOperator sobie przeszukuje i wypluwam wyniki do nowej tabeli z wykorzystaniem "destinationdatasettable". Następnie pobieram