#azure #pyspark #scala #dataengineering #programowanie

Czy ktos mi podpowie czemu scala zostala zepchnieta (przynajmniej z tego co czytam i widze w necie) na drugi plan jako jezyk sparka? Przeciez to jego natywny jezyk?

Tu pytanie do osob siedzacych w Azure i robiacych na nim DE:
Czego sie teraz najwiecej uzywa? PySparka? SparkSQL? Jesli tak to dlaczego? W czym piszecie notebooki?
Trele_Duperele - #azure #pyspark #scala #dataengineering #programowanie

Czy ktos mi ...

źródło: image

Pobierz
  • 7
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@Trele_Duperele: scala umiera śmiercią naturalną
-python jest bardziej przyjaznym i uniwersalnym językiem od scali, dominującym w ekosystemie AI i data. Ogromna liczba bibliotek pod każdy typowy problem w DE i data analytics sprawia, że deweloperzy wolą pracować z pythonem.
-dla większości zastosowań w data engineeringu i analityce używanie scali nie ma żadnej wartości dodanej albo ma minimalną
-dużo łatwiej wdrożyć kogoś do pysparka. Absolwenci kierunków IT mają np podstawy pythona i pandas
  • Odpowiedz
jaki polecacie najlepszy tutorial online (tak żeby sobie puszczać na kompie, patrzeć co wyszło i poprawiać) #pyspark , głownie bym chciał te moduły z dataframe/sql a potem ML

#python #programowanie
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Mam pytanie uzupełniające do mojego wczorajszego pytania o sortowanie.
Dataframy mi się sortują ładnie. Teraz pytanie - czy taki posortowany dataframe mogę zapisać jako posortowany parquet?
Bo zwykłe zapisane posortowanego df niestety nie daje oczekiwanego rezultatu i parquet (a potem external table z tego parqueta) nie są posortowane po tej kolumnie co dataframe.

Pewnie jest opcja, że się nie da, bo tabela to logiczne dane, a nie posortowany zestaw danych?

  • 3
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@LucaJune Z tego co wiem to nie da się osiągnąć sortowania w parquet, ze względu na sposób w jaki zapisuje on dane (kolumny). Z reguly sortowanie musi odbyć się jeszcze raz po wczytaniu.

Jeśli twój DF jest dość mały, możesz spróbować zapisania go jako jedna partycja (df.coalesce(1)), wtedy sortowanie powinno być zachowane, ale tracisz obliczenia na wielu klastrach.
  • Odpowiedz
Mam w Synapsie Analytics dataframe złożony z joinów z 10 innych dataframów, nic przesadnie skomplikowanego.
Ale chcę to posortować i .orderBy(col("nazwakolumny").desc()) mi nie działa.

Jako ciekawostka - w jednym notebooku mi to ładnie działa, a w innym nie.

Nie wywala błędu, tylko po prostu nie sortuje.
  • 8
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Cześć,

Czy ktoś z was miał okazję pracować z technologią hadoop w kontekście zadań związanych z tematyką Machine Learning ? jeśli tak to jak wyglądał proces tworzenia modeli, obróbki danych od początku rozpoczęcia ciągu technicznego ?

Jak rozumiem Hadoop to jest jakby to powiedzieć ogromny magazyn na przechowywanie dosłownie różnych danych z różnych systemów dane te mogą być ustrukturyzowane, nieustrukturyzowane itp. wchodzą oni to jak dobrze rozumiem przestrzeni HDFS na surowo, i jak wiemy
  • 4
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Cześć, dostałem mały projekt w pracy w pysparku. Mała transformacja danych i wrzucenie wyników do nowej tabeli. W punktach opiszę co trzeba zrobić:
1. 4 uniony
2. Pobrać tabelę z mappingiem
3. Zrobić joina (te 4 uniony i mapping)
5. Przerobić 2 kolumny na podstawie wartości, i dodać dwie puste kolumny
4. Wykonać prostą agregacje danych -> groupby po 5 kolumnach.
  • 20
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Apache Ambari


@PiotrokeJ: To już jest kwestia samego zarządzania (wybacz ale nie mam pojęcia jak to inaczej ubrać w słowa) translacją samego SQL na MapReduce na Hadoopie.

W tym przypadku Hadoop trochę inaczej ogarnia takie zapytanie niż spark. Dlatego jak odpalasz coś bezpośrednio na hadoopie to możesz dostać wyniki (błędne lub dobre), a w sparku już
  • Odpowiedz
Potrzebuję zrobić #hurtowniedanych w #sqlserver ale jako narzędzie do #etl służy mi #spark, a konkretnie #pyspark

Macie może jakieś dobre materiały albo przykładowe kody, żeby podejrzeć jakieś dobre praktyki?

Jak ogarnąć slow changing dimension? Metadane itp.?
  • 5
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@inny_89: Z doświadczenia to całe zasilanie powinno się odbywać w dwóch krokach Source - Extract, Extract - Stage. Oczywiście mówię o hurtowni zasilanej raz na dobę nocną porą.

1. Source - Extract - truncate docelowych tabel i zasilenie ze źródła. Tak jest najszybciej. Nawet jak masz tabele do 100 mln rekordów. Z produkcji zasilamy dane tak szybko jak to jest możliwe.

2. Extract - Stage - zasilenie przyrostowe. I tu już można
  • Odpowiedz