#synapseanalytics

07.04.2023, 11:57:24

Jakie jest best practice jeśli chodzi o tworzeniu notebooków w Azure Synapse Analytics, lepiej wiele małych, czy jeden duży?
Poznaję to dopiero i rozkminiam. Obecnie mam zastany jeden ogromny notebook i kilka średnich i myślę czy tego nie porozdzielać na kilkanaście małych i potem to ładować do pipelinów.

#azure #azuredatafactory #synapseanalytics #azuresynapse #powerbi

przecietnyczlowiek

07.04.2023, 12:21:50 via Wykop

@LucaJune: tak naprawdę zależy co tam robisz tym notebooku. Ale generalnie chodzi o to, żeby to było w miarę logicznie podzielone. Żeby jasno było widać twój ETL/ELT flow i np. jeden notebook odpowiadał jednemu outputowi docelowemu (np. przetworzonej tabeli) Np. jeżeli masz jeden notebook w którym ładujesz 5 tabelek (wymiarów np.) po kolei no to trochę to jest źle. Lepiej zrobić to odzielnie bo np. wtedy w pipelinach jesteś w stanie

przecietnyczlowiek

08.04.2023, 18:56:25 via Wykop

@LucaJune: nie wiem jaki wolumen danych, nie wiem czy to spark notebook czy sql notebook. No jeśli zapisywanie do adls2 trwa długo to musisz sprawdzić jaki masz storage ustawiony, może cold tier? I czy ten sam region przede wszystkim co synapse. No i czy dane są popartycjonowanie jakoś sprytnie i w jakim formacie. Jeden duży .csv to zły pomysł. Powinno być wiele parquetów. Ale zbyt wiele małych plików to również zły

przecietnyczlowiek

20.01.2023, 09:22:39

Używacie analityke psiego syna? Ten serverless niby fajny i niedrogi, ale próbowałem zrobić near live data i nie za bardzo daje radę.
#synapse #synapseanalytics #azure

cohontes

20.01.2023, 10:11:11 via Wykop

@przecietnyczlowiek: pamiętaj tylko, że to też zależy od ilości wizualizacji, bo każdy visual = query

przecietnyczlowiek

przecietnyczlowiek

20.01.2023, 10:59:23 via Wykop

@cohontes: tak, wiem wiem. Spróbuję zrobić hybrid model czyli importowanie danych codziennie + querowanie live zmian i przetestuję też na dedicated poolu. Wychodzą drogo, ale pewnie zrobią robotę. Właśnie przeczytałem dokumentację serverlessa i sam Microsoft odradza, to co chciałem:

Consider caching the results on the client side by using Power BI import mode or Azure Analysis Services, and periodically refresh them. Serverless SQL pools can't provide an interactive experience in Power