Wpis z mikrobloga

Mam taki use case:
- wpada sobie plik (CSV)
- na pliku wykonuje X reguł (powiedzmy takie formuły excelowe)
- wynik trafia do bazy/pliku (no to akurat chyba najmniej problemowe)

I problemy:
- w kazdej chwili proces moze zostac "przerwany"/"zatrzymany" np po wykonaniu 50 reguł i musi byc mozliwosc weryfikacji (jak dane sie zmienily) i ew. wrocenia x krokow wczesniej
- reguly - musi byc mozliwosc odpalenia wlasnych (jakis parser excelowych formul?)

Czyli taki ETL + własne kroki pisane we włąsnym języku (cośprostego pokroju excelowych formuł).
Ktoś wie, czy możę AWS Glue to ogarnie? (ew + Simple Workflow Service)

(klient juz ma taki soft, ale działa za wolno wiec chce POC na AWS)

#aws #etl
No i moze #programista15k - może ktoś miał podobne wymogi.
  • 11
@mmichal: hm, powiem... genialne w prostocie :)
- Tylko dla 100 równoległych plików musiałbym tworzyć osobne tabele. (dobra to nie problem)
- ciężko zrobić cofnięcie 6 kroków wstecz?
- nie ma toola na to

cały clue to POC i zrobić to używajac czegoś co już jest i najlepiej, niech AWS dba o to aby działo.
etl (glue) / aws zadba o skalowalnosc, odpalanie tego rownolegle itd.

W twoim przypadku - super
@Klopsztanga: czyli jak rozumiem pełne możliwości pythona dostane - użycie boto i dostanie się do s3 nie będzie problemem?

A da sie w glue zrobic "pause"... np po danym kroku czekaj na potwierdzenie? (znaczy to pewnie szedl by jakis triger przez lambde czy sns)

Nie miałem jeszcze doczynienia ze sparkiem i glue wiec to pewnie banalne pytanie.
@Klopsztanga: czyli jak rozumiem pełne możliwości pythona dostane - użycie boto i dostanie się do s3 nie będzie problemem?


@mccloud: tak

A da sie w glue zrobic "pause"... np po danym kroku czekaj na potwierdzenie? (znaczy to pewnie szedl by jakis triger przez lambde czy sns)


@mccloud: nie :) Do tego musisz jakieś step functions mieć lub swf - chociaż nie testowalem tego drugiego
@mccloud: nie :) Do tego musisz jakieś step functions mieć lub swf - chociaż nie testowalem tego drugiego


@Klopsztanga: O no właśnie o tym myślałem (SWF). To mi będzie wyzwalać "cząstkowy" flow w glue, najpierw 5 korków, potem kolejne itd.
Od biedy wszystko będzie jakims osobnym jobem a tymczasowo wyniki sobie wrzuce na s3.

Bo jak moge klepnac cos w pythonie, to już jest dobrze.

Dzięki @Klopsztanga @mmichal
@mccloud: #!$%@? to, zatrudniajcie po prostu na bezpłatne trzymiesięczne staże na stanowisko data steward i ludzie będą to ogarniać w excelach. A tak serio to na Azure bym to zrobił za pomocą azure data factory i/albo azure functions więc na aws glue i aws lambda.
@Klopsztanga: No ja obu nie używałem. Ale sprawdze sobie.

@bacteria O rany. Za późno na tak długi tekst. Poczytam sobie tym wzorcu.

@ostrykuc666 Jeny, jak komuś przyjdzie ogarniać kilkuset megowy plik w excell + 100-200 reguł. Toż to rotacja będzie na poziomie 99% :) Dzięki za wskazówki - poptrze co odpowidenik może i co moge w aws.