Jest tu jakiś spec od #awsglue #glue #spark ?
Po odpaleniu joba, po jakims czasie dostaje bład jak niżej...

I nie wyglada to na coś złego, normalnie wszystko się przetwarza (screen)
jakieś pomysły co zrobiłem nie tak?

An error occurred while calling o5466.resolveChoice. Job aborted due to stage failure: Task 6 in stage 53.0 failed 4 times, most recent failure: Lost task 6.3 in stage 53.0
mccloud - Jest tu jakiś spec od #awsglue #glue #spark ?
Po odpaleniu joba, po jakims...

źródło: comment_1664571841Ud2Sv5K0T42G0UlrKLuX0w.jpg

Pobierz
  • Odpowiedz
Kurcze mam dane 145 kolumn, 100k wierszy. Wrzucam do glue/sparka i mam kilkadziesiat krokow. W wiekszosci cos w stylu a*b itd (testuje sobie).
Większość kodu to funkcje np jak poniższa:

def handle(gc: GlueContext, df: DynamicFrame) -> DynamicFrame:
return ApplyMapping.apply(frame=df, mappings=t)

def t(rec: DynamicRecord) -> DynamicRecord:
@inny_89: I chyba juz znalazłem winowajce.
Mam jedna regułe która ma policzyc srednia dla calego zbioru...
Wszystkie joby wcześniejsze są ładnie rozrzucone na executory.
Wszystkie joby po średniej - już idą na jednym executorze.

Dziwne, bo robie sobie kopie ramki, obliczam co mi trzeba i potem dodaje tylko kolumne do oryginalnej ramki. Ale zaraz sie upewnie wywalajac ten krok czy wszystko bedzie ladnie rownolegle dzialac.
  • Odpowiedz
@inny_89: Ok, to sobie rozpoznam - wygląda to na dosyć dużę czasy GC, jakby to zmniejszyć to też dobry kwałek ugram.

PS. Wielkie dzięki - wskazówki z dag (AWS ma to pod nazwą to Spark UI) były super pomocne. Tak to bym pewnie w ciemno błądził co jest nie tak. A tak w dzień rozpykane i teraz 100k wierszy robie w 8 min zamiast w 1h.
Problematyczne przekształcenia (średnia i
  • Odpowiedz