Wpis z mikrobloga

@LucaJune: tak naprawdę zależy co tam robisz tym notebooku. Ale generalnie chodzi o to, żeby to było w miarę logicznie podzielone. Żeby jasno było widać twój ETL/ELT flow i np. jeden notebook odpowiadał jednemu outputowi docelowemu (np. przetworzonej tabeli) Np. jeżeli masz jeden notebook w którym ładujesz 5 tabelek (wymiarów np.) po kolei no to trochę to jest źle. Lepiej zrobić to odzielnie bo np. wtedy w pipelinach jesteś w stanie
  • 0
@przecietnyczlowiek: dzięki za kompleksową odpowiedź ????
Doceniam, że Ci się chciało. Czyli muszę to porozdzielać. Bo teraz mam tak, że jest jeden giga notebook gdzie tworzone jest kilka tabel.
Jakieś zmiany w nim i debugowanie to katorga.

Jego wykonywanie trwa z godzinę, najdłużej zapisywanie do datalake. To normalne czasy? 4 core tylko dostępne niestety
@LucaJune: nie wiem jaki wolumen danych, nie wiem czy to spark notebook czy sql notebook. No jeśli zapisywanie do adls2 trwa długo to musisz sprawdzić jaki masz storage ustawiony, może cold tier? I czy ten sam region przede wszystkim co synapse. No i czy dane są popartycjonowanie jakoś sprytnie i w jakim formacie. Jeden duży .csv to zły pomysł. Powinno być wiele parquetów. Ale zbyt wiele małych plików to również zły