Wpis z mikrobloga

Skopiuj link

10.11.2021, 09:34:03

Cześć, dostałem mały projekt w pracy w pysparku. Mała transformacja danych i wrzucenie wyników do nowej tabeli. W punktach opiszę co trzeba zrobić:
1. 4 uniony
2. Pobrać tabelę z mappingiem
3. Zrobić joina (te 4 uniony i mapping)
5. Przerobić 2 kolumny na podstawie wartości, i dodać dwie puste kolumny
4. Wykonać prostą agregacje danych -> groupby po 5 kolumnach.
6. Wrzucić wyniki do nowej tabeli

Tabela z unionami ma łącznie 7k rekordów. (7k wierszy i 7 kolumn)
Tabela z mappingiem max 300 wierszy
Jednak cały czas mam problem z pamięcią, GC czy timeoutami. Próbowałem zwiększać limity pamięci jednak nic nie pomaga. Przeważnie dostaje error: gc overhead limit exceeded. Troche dziwne bo to jest raptowanie 7k rekordów, po agregacji ma wyjść ~~3k. Ktoś wie jak to rozwiązać?

#pyspark #spark #dataengineering #hadoop
#programowanie #python #scala

o.....6

konto usunięte 10.11.2021, 09:36:45

@PiotrokeJ: 7k rekordów w sparku? Jebnij im to w sql, pandas albo excelu.

PiotrokeJ

10.11.2021, 09:37:47

@ostrykuc666: Ma być wszystko w pysparku. Taka polityka firmy

MerytorycznieNiepoprawny

10.11.2021, 09:40:06

Komentarz usunięty przez autora

inny_89

10.11.2021, 09:47:15

@MerytorycznieNiepoprawny: A jesteś pewien, że dobrze joina robisz? Bardzo trudno jest cokolwiek podpowiedzieć na bazie szczątkowych informacji, które podałeś ale:

1. Przede wszsytkim dobrze już koledzy napisali: ogarnij to w pandasie - ale rozumiem, ze polityka firmy. Niemniej jednak możesz ogarnąć sobie: "toPandas()" i jedź ze wszystkim na pojedynczym nodzie w tedy.
2. Sprawdz joina. Nie masz multiplikowania wierszy? Joinujesz się po unikalnych kluczach?
3. Jaką masz configuracje clustra? Masz jakiś

LollyPoop

10.11.2021, 10:11:54

@PiotrokeJ: a ile pamięci Ci zżera proces? może masz limit ustawiony za nisko?

PiotrokeJ

10.11.2021, 11:16:02

@LollyPoop: ja mogę to sprawdzić?

LollyPoop

10.11.2021, 11:24:40

@PiotrokeJ: np. linuxowy "top"?

PiotrokeJ

10.11.2021, 11:27:28

@inny_89: 1. Ok, postaram się. Jednak chciałbym dowiedzieć się co robię źle.
2. Zrobie left joina po jednej kolumnie:
dfjoined = resultdf.join(dfmapping, resultdf['bill'].cast('int') == df_mapping['stp'], how='left')
3. Tego nie wiem, nie ja zarządzam architekturą
4. GC wyrzuca albo po agregacji jak chciałem zrobić df.count() na tabeli zagregowanej, lub przy inserInto jak chciałem wrzucić dataframe do tabeli SQL (jeżeli nie robie counta to zatrzymuje się na insercie, jak

inny_89

10.11.2021, 13:21:50 via Android

@PiotrokeJ a weź zrób count() na resultdf oraz na dfmapping przed tym jointem i na dfjoined od razu po joinie. I podaj nam wyniki.

Tam castujesz też do int jakaś kolumnę. Masz pewność, że nie ucinasz tym sposobem jakichś zer wiodących itp?

Dfmapping['stp'] to kolumna typu int i jest unikalna? Zrob na tej kolumnie count i distinct count i podaj wyniki.

Zrób printSchema dla tych dwóch dataFrame, które joinujesz.

PiotrokeJ

24.11.2021, 21:03:08

@inny_89: @LollyPoop: @ostrykuc666: Przerzuciłem wszystko na sql, jednak cały czas otrzymuje błędy podczas wykonywania insertInto do tabeli. "An error occured while calling o73.insertInto. Job aborted due to stage failure: task 0 i insta 83.0 failed 4 times, most recent failure lost task 0.3 in stage 83.0 TID xxx. java.lang.IndexOutOfBoundsException: toIndex =212". Jakieś pomysły na to? Łącze 4 tabele unionem i ma wyjść 9k rekordów

inny_89

24.11.2021, 21:18:43 via Android

@PiotrokeJ sprawdź czy przypadkiem nie masz pustego tego dfa, którego zapisujesz.

Sprawdź scheme wszystkich df które joinujesz lub robisz uniona
. Ten błąd przy zapisie dotyczy bezpośrednio danych samych w sobie.
Albo Ci brakuje jakichś kolumn albo coś podobnego.

PiotrokeJ

25.11.2021, 22:06:26

@inny_89: No w jakis dziwny sposób kwerenta działa w Ambari a przez pysparka juz nie działa. Ostatnia część uniona nie działa tak jak by nie było rekordów w tabeli?

Jednak teraz mam problem z kwerendą agregującą. Wszystko mi działa w Ambari - cała kwerenda wypluwa fajną tabelę jednak wrzucam to do pysparka i gówno. Wywala mi błąd. "Aggregate functions are not allowed in GROUP BY, but found sum(sap.cases). Masz pomysł co

inny_89

25.11.2021, 22:44:20 via Android

@PiotrokeJ pewnie Mirek. Znajdziemy rozwiązanie ale musiałbym zobaczyć dokładny kod chociaż tego zapytania SQL które odpalasz w pysparku.

Masz to gdzieś na repo i możesz udostępnić? A jak nie to chociaż wrzuć na jakiś pastebin i podeślij.

inny_89

25.11.2021, 22:51:05 via Android

@PiotrokeJ tak strzelam, że na 95% jest tak, że nie wpisałeś wszystkich pól z selecta, których używasz i group by robisz tylko po jakimś wybranym a używasz właśnie funkcji agregujących.

Robisz coś na wzór?:

Select field1, field1, field3, sum(SAP.cases), field3
From table as SAP
Group by field3

PiotrokeJ

25.11.2021, 22:52:16

@inny_89: kwerenda: https://pastebin.com/HBB6KSPv

co do kodu to: df = spark.sql(tutajkwerendaz_linku).cache().

PiotrokeJ

25.11.2021, 22:57:27

@inny_89: czyli powinieniem jeszcze ,currenttimestamp (linia 21) wrzucić do groupby albo zamienić na jakieś (max ,currenttimestamp) albo inną funkcje agregującą?

inny_89

25.11.2021, 23:08:30

@PiotrokeJ: ta '10' z group by jest zbędna - tak mi się przynajmniej wydaje. Spróbuj ją usunąć. I tak: koniecznie dodaj brakujący currentimestamp.

Masz jak to teraz sprawdzić?

inny_89

25.11.2021, 23:17:54

@PiotrokeJ: Co do tych case when kolumn, które wypisujesz w group by to łątwiej Ci będzie ogarnąć co się dzieje w kodzie jeśli napiszesz to z sub-query albo wyrażeniem CTE.
Sprawdz to:
https://pastebin.com/HZF4BF2G

Powinno zadziałać zamiast Twojego zapytania. Wklej do swojego kodu.

Jak nie zaskoczy to znaczy, ze słabo mi się myśli po północy i pomyślimy nad tym jutro :P

PiotrokeJ

26.11.2021, 10:03:49

@inny_89: Dzięki, jedno i drugie działa :) Teraz pytanie z innej beczki, wiesz dlaczego w Apache Ambari kiedy puszczam zapytanie dostaje wyniki, jak puszę identyczne zapytanie przez pysparka i dam np. df.count() albo chce wrzucć dataframe do nowej tabeli do dostaje error An error occured while calling o73.count. Job aborted due to stage failure: task 0 i insta 83.0 failed 4 times, most recent failure lost task 0.3 in stage 83.0

inny_89

inny_89

26.11.2021, 11:51:32

Apache Ambari

@PiotrokeJ: To już jest kwestia samego zarządzania (wybacz ale nie mam pojęcia jak to inaczej ubrać w słowa) translacją samego SQL na MapReduce na Hadoopie.

W tym przypadku Hadoop trochę inaczej ogarnia takie zapytanie niż spark. Dlatego jak odpalasz coś bezpośrednio na hadoopie to możesz dostać wyniki (błędne lub dobre), a w sparku już nie.

W bardzo prostych słowach i bardzo ogólnie (pomijając wszelkie niuanse) wytłumaczono to tutaj:
https://searchdatamanagement.techtarget.com/definition/SQL-on-Hadoop

PiotrokeJ

Aktywne Wpisy

urarthone

urarthone +111

6 godz. i 5 min temu

Zapraszam na #garscnewsow na 13 lutego

Wersja bez grafiki w komentarzu na FB tutaj

urarthone - Zapraszam na #garscnewsow na 13 lutego

Wersja bez grafiki w komentarzu n... — **źródło:** Garść Newsów na 13 lutego
Pobierz

News dnia to...

Zginął rekordzista w maratonie 16.1% (211)
Piłkarza trafił piorun 17.2% (225)
Rozegrano finał futbolu amerykańskiego 1.6% (21)
Pierwsza ofiara ospy alaskańskiej 2.9% (38)
Koniec malowania twarzy w telewizyjnym show 25.3% (331)
Rolnicy wysypali ukraińskie zboże 6.0% (79)
Malcolm będzie jeździł a NASCAR 4.6% (60)
Będą pierwsze powietrzne taksówki 9.9% (129)
Kary za fotografowanie zabytków 4.6% (60)
Wypadki w pracy, dane GUS 11.8% (155)

agareas

agareas +2

3 godz. i 13 min temu

Witam, mam takie pytanie. Czy według was jest możliwe dojeżdżać rowerem do pracy 11 km rowerem? Droga Miasteczko-wioska.
Praca od 7-15 więc w sumie spoko jak na rower.
Ewentualnie jakiś elektryczny DOBRY rower? Poleci ktoś coś?
#rower #rowery

Aktywne Wpisy

News dnia to...

Aktywne Znaleziska

Sikorski w Paryżu: Musimy wypełnić nasze zobowiązania wobec Ukrainy

"Times" docenia Polskę. Nasz kraj staje się potęgą militarną

CBŚP i SG rozpracowali gang, który "legalizował" pobyt obcokrajowców w Polsce

Niemcy krytykują firmy, które przenoszą produkcję do Polski

Pereira bezczelnie kłamie w sprawie braku zaproszeń Konfederacji do TVP

Popularne tagi