Wpis z mikrobloga

Skopiuj link

25.01.2021, 20:07:55 via Android

Potrzebuję zrobić #hurtowniedanych w #sqlserver ale jako narzędzie do #etl służy mi #spark, a konkretnie #pyspark

Macie może jakieś dobre materiały albo przykładowe kody, żeby podejrzeć jakieś dobre praktyki?

Jak ogarnąć slow changing dimension? Metadane itp.?

Znacie jakieś dobre repo do którego mógłbym zajrzeć?

#data #bazydanych #programowanie

Ark00

25.01.2021, 20:43:05

@inny_89: co do praktyk to był chyba ten artykuł dosyć spoko
https://alexioannides.com/2019/07/28/best-practices-for-pyspark-etl-projects/

Ark00

25.01.2021, 20:47:53

@inny_89: co do scd to co masz dokładnie na myśli? Bo aż musiałem sprawdzić, człowiek pisze w sparku i nie wie co robi ( ͡° ͜ʖ ͡°)
Generalnie to kod powinien być reużywalny i dane wyjściowe powinny móc być odtworzone za pomocą transformerów i danych wejściowych. Spark pozwala nadpisywać dynamicznie popartycjonowane dane, tj. nie musisz całego zbioru za każdym razem przeliczać, jeśli masz dane, które np. musisz

inny_89

25.01.2021, 21:16:15 via Android

@Ark00 ekstra! Dziękuję!

Właśnie załóżmy, że mam dane ułożone w przedziałach czasowych z wyszczególnionym rokiem oraz klientem. Unikalnych lat jak i klientów nie jest dużo: 7 lat dla 7 różnych klientów.
Mam właśnie problem, że chciałbym napisać dane tylko dla wybranego klienta i dla wybranego roku.
Mógłbym więc wykorzystać mechanizm, o którym wspomniałeś: "Spark pozwala nadpisywać dynamicznie popartycjonowane dane".
Mógłbyś mnie trochę bardziej naprowadzić na temat? Np do konkretnej strony w dokumentacji?

t.....h

konto usunięte 25.01.2021, 21:20:08

@inny_89: Z doświadczenia to całe zasilanie powinno się odbywać w dwóch krokach Source - Extract, Extract - Stage. Oczywiście mówię o hurtowni zasilanej raz na dobę nocną porą.

1. Source - Extract - truncate docelowych tabel i zasilenie ze źródła. Tak jest najszybciej. Nawet jak masz tabele do 100 mln rekordów. Z produkcji zasilamy dane tak szybko jak to jest możliwe.

2. Extract - Stage - zasilenie przyrostowe. I tu już

Ark00

25.01.2021, 21:29:34

@inny_89: https://stackoverflow.com/questions/38487667/overwrite-specific-partitions-in-spark-dataframe-write-method

Ustawia się to jedną linijką w configu:

spark.conf.set("spark.sql.sources.partitionOverwriteMode","dynamic")

Wybacz też wysoki poziom abstrakcji przy opisywaniu założeń. :)

@inny_89: spoko, generalnie nie zajmuję się hurtowniami jako takimi i nie mam generalnie zbyt dużej wiedzy o pracy z nimi, za to coś tam technicznego ze sparka mogę pomóc ( ͡° ͜ʖ ͡°)

Aktywne Wpisy

Nullek

Nullek +64

5 godz. i 36 min temu

Spełniłem swoje małe marzenie (｡◕‿‿◕｡)
Niby tylko golfik ale i tak bardzo się cieszę (ʘ‿ʘ)

Nullek - Spełniłem swoje małe marzenie (｡◕‿‿◕｡)
Niby tylko golfik ale i tak bardzo si... — **źródło:** IMG_20240429_234732
Pobierz

ludzki_odpad

ludzki_odpad +134

6 godz. i 7 min temu

Na koniec stycznia miałem awarię w aucie. Straciłem zapłon na 3 cylindrze, kiedy jechałem autostradą.

Wtedy myślałem, że zdechła świeca, albo cewka.

Kupiłem miernik kompresji i okazało się, że na cylindrze 3 nie ma kompresji w ogóle, a na czwórce jest bardzo słaba. Podejrzewałem wtedy uszczelkę pod głowicą, myślałem, że jest przedmuch między cylindrami.

Rozebrałem silnik i zdjąłem głowicę. Wtedy moim oczom ukazał się wypalony zawór wydechowy na cylindrze 3 i podparty

ludzki_odpad - Na koniec stycznia miałem awarię w aucie. Straciłem zapłon na 3 cylind... — **źródło:** temp_file3767358974674252871
Pobierz

Aktywne Wpisy

Aktywne Znaleziska

A to niespodzianka...

Pioruny nagrane ultraszybką kamerą

Rekordowa strata PKP! Śmierdzący zbuk po poprzedniej władzy?

Kościół alarmuje. Tak źle nie było nigdy

Rolnik musi sprzedać 3 razy więcej zboża, by kupić ciągnik. Skala kryzysu poraża

Popularne tagi