Wpis z mikrobloga

Skopiuj link

25.01.2021, 20:07:55 via Android

Potrzebuję zrobić #hurtowniedanych w #sqlserver ale jako narzędzie do #etl służy mi #spark, a konkretnie #pyspark

Macie może jakieś dobre materiały albo przykładowe kody, żeby podejrzeć jakieś dobre praktyki?

Jak ogarnąć slow changing dimension? Metadane itp.?

Znacie jakieś dobre repo do którego mógłbym zajrzeć?

#data #bazydanych #programowanie

Ark00

25.01.2021, 20:43:05

@inny_89: co do praktyk to był chyba ten artykuł dosyć spoko
https://alexioannides.com/2019/07/28/best-practices-for-pyspark-etl-projects/

Ark00

25.01.2021, 20:47:53

@inny_89: co do scd to co masz dokładnie na myśli? Bo aż musiałem sprawdzić, człowiek pisze w sparku i nie wie co robi ( ͡° ͜ʖ ͡°)
Generalnie to kod powinien być reużywalny i dane wyjściowe powinny móc być odtworzone za pomocą transformerów i danych wejściowych. Spark pozwala nadpisywać dynamicznie popartycjonowane dane, tj. nie musisz całego zbioru za każdym razem przeliczać, jeśli masz dane, które np.

inny_89

25.01.2021, 21:16:15 via Android

@Ark00 ekstra! Dziękuję!

Właśnie załóżmy, że mam dane ułożone w przedziałach czasowych z wyszczególnionym rokiem oraz klientem. Unikalnych lat jak i klientów nie jest dużo: 7 lat dla 7 różnych klientów.
Mam właśnie problem, że chciałbym napisać dane tylko dla wybranego klienta i dla wybranego roku.
Mógłbym więc wykorzystać mechanizm, o którym wspomniałeś: "Spark pozwala nadpisywać dynamicznie popartycjonowane dane".
Mógłbyś mnie trochę bardziej naprowadzić na temat? Np do konkretnej strony w

t.....h

konto usunięte 25.01.2021, 21:20:08

@inny_89: Z doświadczenia to całe zasilanie powinno się odbywać w dwóch krokach Source - Extract, Extract - Stage. Oczywiście mówię o hurtowni zasilanej raz na dobę nocną porą.

1. Source - Extract - truncate docelowych tabel i zasilenie ze źródła. Tak jest najszybciej. Nawet jak masz tabele do 100 mln rekordów. Z produkcji zasilamy dane tak szybko jak to jest możliwe.

2. Extract - Stage - zasilenie przyrostowe. I tu już można

Ark00

25.01.2021, 21:29:34

@inny_89: https://stackoverflow.com/questions/38487667/overwrite-specific-partitions-in-spark-dataframe-write-method

Ustawia się to jedną linijką w configu:

spark.conf.set("spark.sql.sources.partitionOverwriteMode","dynamic")

Wybacz też wysoki poziom abstrakcji przy opisywaniu

Aktywne Wpisy

vateras131

vateras131 +24

6 godz. temu

Jakie gry według was mają najciekawszą główną mechanikę/gameplay? Chodzi mi o takie tytuły, które raczej nie stawiają na fabułę, graficzne wodotryski, dodatkowe aktywności i inne fillery, lecz całe "mięso" leży w rozgrywce, która potrafi przez długi czas zaskakiwać głębią. Moje typy:
-Noita (wtf, mój mózg nie ogarnia tej gry)
-PoE
-rimworld
-balatro
-factorio