#azuredatafactory

07.04.2023, 11:57:24

2

Jakie jest best practice jeśli chodzi o tworzeniu notebooków w Azure Synapse Analytics, lepiej wiele małych, czy jeden duży?
Poznaję to dopiero i rozkminiam. Obecnie mam zastany jeden ogromny notebook i kilka średnich i myślę czy tego nie porozdzielać na kilkanaście małych i potem to ładować do pipelinów.

#azure #azuredatafactory #synapseanalytics #azuresynapse #powerbi

przecietnyczlowiek

07.04.2023, 12:21:50 via Wykop

3

@LucaJune: tak naprawdę zależy co tam robisz tym notebooku. Ale generalnie chodzi o to, żeby to było w miarę logicznie podzielone. Żeby jasno było widać twój ETL/ELT flow i np. jeden notebook odpowiadał jednemu outputowi docelowemu (np. przetworzonej tabeli) Np. jeżeli masz jeden notebook w którym ładujesz 5 tabelek (wymiarów np.) po kolei no to trochę to jest źle. Lepiej zrobić to odzielnie bo np. wtedy w pipelinach jesteś w

przecietnyczlowiek

08.04.2023, 18:56:25 via Wykop

0

@LucaJune: nie wiem jaki wolumen danych, nie wiem czy to spark notebook czy sql notebook. No jeśli zapisywanie do adls2 trwa długo to musisz sprawdzić jaki masz storage ustawiony, może cold tier? I czy ten sam region przede wszystkim co synapse. No i czy dane są popartycjonowanie jakoś sprytnie i w jakim formacie. Jeden duży .csv to zły pomysł. Powinno być wiele parquetów. Ale zbyt wiele małych plików to również

przecietnyczlowiek

02.02.2023, 08:28:05

3

Microsoft chyba zrozumiał, że jego narzędzie do ETL/ELT/orchestration w cloudzie jest takie se i brakuje mu wielu przydatnych usprawnień. Więc po prostu dodał Airflow do niego xD Też fajnie. W sumie po co konkurować z open sourcami, skoro można je zaimplementować i skosić za to kasę od przedsiębiorstw.

https://techcommunity.microsoft.com/t5/azure-data-factory-blog/introducing-managed-airflow-in-azure-data-factory/ba-p/3730151

#apacheairflow #airflow #etl #businessintelligence #azuredatafactory #azure

przecietnyczlowiek - Microsoft chyba zrozumiał, że jego narzędzie do ETL/ELT/orchestr... — **źródło:** large
Pobierz

peoplearestrange

02.02.2023, 12:59:11 via Wykop

0

Treść przeznaczona dla osób powyżej 18 roku życia...

c.....s

konto usunięte 14.09.2022, 11:02:43

0

#azure #adf #dataengineering #cloud #azuredatafactory

Mam pętlę ForEach, w środku której kopiuje dane z jednej bazy do drugiej.
Czy jest jakaś opcja by podejrzeć, która tabela aktualnie się kopiuje?

c.....s

konto usunięte 14.09.2022, 13:25:48

1

@cohontes: dobra może przyda się potomnym, w pre copy scripcie można dać select na parametr z tableName wtedy w inpucie będzie widziana nazwa tabeli własnie w pre copy scripcie

PiotrokeJ

26.04.2022, 20:57:15

2

Dostałem mini task w robocie, powoli zaczynam jako Data Engineer. Muszę wygenerować kilka csv z kilku baz. Proces ma być cykliczny raz w tygodniu może nawet częściej. Jak najlepiej to zrobić? Stworzyć pipeline bazujac na 'Copy Data' activities? Czy pisać wszystko w synapsie/databrick i odpalać cały notebook. Jak coś pomyliłem to sorki, dopiero zaczynam z Data Factory.
#azure #datafactory #bigdata #azuredatafactory #adf

saviola7

26.04.2022, 21:42:02

2

@PiotrokeJ: Chyba w ADF prościej wyklikać, Databricksów bym użył do bardziej skomplikowanych operacji na danych. Sam od niedawna w tym grzebie, więc mogę się mylić.