#pyspark

17.09.2025, 05:36:06

0

#azure #pyspark #scala #dataengineering #programowanie

Czy ktos mi podpowie czemu scala zostala zepchnieta (przynajmniej z tego co czytam i widze w necie) na drugi plan jako jezyk sparka? Przeciez to jego natywny jezyk?

Tu pytanie do osob siedzacych w Azure i robiacych na nim DE:
Czego sie teraz najwiecej uzywa? PySparka? SparkSQL? Jesli tak to dlaczego? W czym piszecie notebooki?

Trele_Duperele - #azure #pyspark #scala #dataengineering #programowanie

Czy ktos mi ... — **źródło:** image
Pobierz

geringxes

17.09.2025, 06:20:44 via Wykop

2

Wygląda na kolejność alfabetyczną ( ͡° ͜ʖ ͡°)

przecietnyczlowiek

17.09.2025, 06:30:37 via Wykop

1

@Trele_Duperele: scala umiera śmiercią naturalną
-python jest bardziej przyjaznym i uniwersalnym językiem od scali, dominującym w ekosystemie AI i data. Ogromna liczba bibliotek pod każdy typowy problem w DE i data analytics sprawia, że deweloperzy wolą pracować z pythonem.
-dla większości zastosowań w data engineeringu i analityce używanie scali nie ma żadnej wartości dodanej albo ma minimalną
-dużo łatwiej wdrożyć kogoś do pysparka. Absolwenci kierunków IT mają np podstawy pythona i pandas

heniek_8

01.04.2024, 09:51:36

0

jaki polecacie najlepszy tutorial online (tak żeby sobie puszczać na kompie, patrzeć co wyszło i poprawiać) #pyspark , głownie bym chciał te moduły z dataframe/sql a potem ML

#python #programowanie

LucaJune

29.12.2023, 16:23:32

0

Mam pytanie uzupełniające do mojego wczorajszego pytania o sortowanie.
Dataframy mi się sortują ładnie. Teraz pytanie - czy taki posortowany dataframe mogę zapisać jako posortowany parquet?
Bo zwykłe zapisane posortowanego df niestety nie daje oczekiwanego rezultatu i parquet (a potem external table z tego parqueta) nie są posortowane po tej kolumnie co dataframe.

Pewnie jest opcja, że się nie da, bo tabela to logiczne dane, a nie posortowany zestaw danych?

ch1nczyk

29.12.2023, 16:32:35 via Android

4

@LucaJune Z tego co wiem to nie da się osiągnąć sortowania w parquet, ze względu na sposób w jaki zapisuje on dane (kolumny). Z reguly sortowanie musi odbyć się jeszcze raz po wczytaniu.

Jeśli twój DF jest dość mały, możesz spróbować zapisania go jako jedna partycja (df.coalesce(1)), wtedy sortowanie powinno być zachowane, ale tracisz obliczenia na wielu klastrach.

programistalvlhard

30.12.2023, 14:15:24 via Wykop

1

@LucaJune: @ch1nczyk Dokładnie, zapisując na plikach nie masz opcji zapisania "posortowanego", co najwyżej możesz używać takich metod jak clustering eg https://docs.databricks.com/en/delta/clustering.html czy partycjoniwanie.

LucaJune

28.12.2023, 16:24:49

1

Mam w Synapsie Analytics dataframe złożony z joinów z 10 innych dataframów, nic przesadnie skomplikowanego.
Ale chcę to posortować i .orderBy(col("nazwakolumny").desc()) mi nie działa.

Jako ciekawostka - w jednym notebooku mi to ładnie działa, a w innym nie.

Nie wywala błędu, tylko po prostu nie sortuje.

wezuza123

28.12.2023, 18:04:01 via iOS

2

@LucaJune lepiej zaciągać wszystkie czymś pokroju import pyspark.sql.functions as F, bo możesz mieć kolizję z funkcjami pythonowymi o tej samej nazwie np. sum, min itp.

wezuza123

28.12.2023, 18:22:29 via iOS

2

@LucaJune tak.

printHelloWorld

20.11.2022, 20:42:30

0

Cześć,

Czy ktoś z was miał okazję pracować z technologią hadoop w kontekście zadań związanych z tematyką Machine Learning ? jeśli tak to jak wyglądał proces tworzenia modeli, obróbki danych od początku rozpoczęcia ciągu technicznego ?

Jak rozumiem Hadoop to jest jakby to powiedzieć ogromny magazyn na przechowywanie dosłownie różnych danych z różnych systemów dane te mogą być ustrukturyzowane, nieustrukturyzowane itp. wchodzą oni to jak dobrze rozumiem przestrzeni HDFS na surowo, i jak wiemy

Hadzik

20.11.2022, 21:08:57

0

@printHelloWorld: zależy jaki ML, do niektórych klasycznych modeli Spark + Spark MLlib jest wystarczający

printHelloWorld

17.12.2022, 18:46:54

0

@Hadzik: Cześć, sorki za odpisanie dopiero teraz, zależy na tworzeniu modelu prognozujących pewne sytuację. Czy masz może jakiś fajny diagram opisujący ML w kontekście Hadoop ?

mccloud

26.03.2022, 20:29:33

0

#pyspark #awsglue #spark

Mam sobie kolumne z danymi:

60
null

inny_89

26.03.2022, 21:11:16 via Android

0

Komentarz usunięty przez autora

PiotrokeJ

10.11.2021, 09:34:03

0

Cześć, dostałem mały projekt w pracy w pysparku. Mała transformacja danych i wrzucenie wyników do nowej tabeli. W punktach opiszę co trzeba zrobić:
1. 4 uniony
2. Pobrać tabelę z mappingiem
3. Zrobić joina (te 4 uniony i mapping)
5. Przerobić 2 kolumny na podstawie wartości, i dodać dwie puste kolumny
4. Wykonać prostą agregacje danych -> groupby po 5 kolumnach.

o.....6

konto usunięte 10.11.2021, 09:36:45

2

@PiotrokeJ: 7k rekordów w sparku? Jebnij im to w sql, pandas albo excelu.

inny_89

26.11.2021, 11:51:32

1

Apache Ambari

@PiotrokeJ: To już jest kwestia samego zarządzania (wybacz ale nie mam pojęcia jak to inaczej ubrać w słowa) translacją samego SQL na MapReduce na Hadoopie.

W tym przypadku Hadoop trochę inaczej ogarnia takie zapytanie niż spark. Dlatego jak odpalasz coś bezpośrednio na hadoopie to możesz dostać wyniki (błędne lub dobre), a w sparku już

inny_89

25.01.2021, 20:07:55 via Android

1

Potrzebuję zrobić #hurtowniedanych w #sqlserver ale jako narzędzie do #etl służy mi #spark, a konkretnie #pyspark

Macie może jakieś dobre materiały albo przykładowe kody, żeby podejrzeć jakieś dobre praktyki?

Jak ogarnąć slow changing dimension? Metadane itp.?

t.....h

konto usunięte 25.01.2021, 21:20:08

1

@inny_89: Z doświadczenia to całe zasilanie powinno się odbywać w dwóch krokach Source - Extract, Extract - Stage. Oczywiście mówię o hurtowni zasilanej raz na dobę nocną porą.

1. Source - Extract - truncate docelowych tabel i zasilenie ze źródła. Tak jest najszybciej. Nawet jak masz tabele do 100 mln rekordów. Z produkcji zasilamy dane tak szybko jak to jest możliwe.

2. Extract - Stage - zasilenie przyrostowe. I tu już można

Ark00

25.01.2021, 21:29:34

1

@inny_89: https://stackoverflow.com/questions/38487667/overwrite-specific-partitions-in-spark-dataframe-write-method

Ustawia się to jedną linijką w configu:

spark.conf.set("spark.sql.sources.partitionOverwriteMode","dynamic")

Wybacz też wysoki poziom abstrakcji przy opisywaniu

konik_polanowy

25.08.2018, 04:15:31

12

Dzisiaj Learning PySpark (February 2017)

https://www.packtpub.com/packt/offers/free-learning

#packtpubfreelearning #pyspark #python #machinelearning #spark

konik_polanowy

25.08.2018, 04:16:05

0

konik_polanowy

25.08.2018, 04:16:07

0

konik_polanowy

20.07.2018, 23:05:55

15

Dzisiaj Learning PySpark (February 2017)

https://www.packtpub.com/packt/offers/free-learning

#packtpubfreelearning #python #spark #pyspark #machinelearning

Foresight

20.07.2018, 23:33:52

1

@Bezzalogowy: Kliknij w "claim your free ebook" to się naprawi

r.....h

konto usunięte 27.07.2018, 12:22:14

0

@Foresight: danke ( ͡° ͜ʖ ͡°)

konik_polanowy

15.05.2018, 04:30:15

11

Dzisiaj Learning PySpark

https://www.packtpub.com/packt/offers/free-learning

#packtpubfreelearning #pyspark #python

konik_polanowy

15.05.2018, 04:31:02

1

Wołam zainteresowanych (74) z listy Packt Pub Free
Możesz zapisać/wypisać się klikając na nazwę listy.

Dodatek wspierany przez Cebula.Online

Masz problem z działaniem listy? A może pytanie? Pisz do IrvinTalvanen

konik_polanowy

15.05.2018, 04:31:03

0