Mam taki use case: - wpada sobie plik (CSV) - na pliku wykonuje X reguł (powiedzmy takie formuły excelowe) - wynik trafia do bazy/pliku (no to akurat chyba najmniej problemowe)
I problemy: - w kazdej chwili proces moze zostac "przerwany"/"zatrzymany" np po wykonaniu 50 reguł i musi byc mozliwosc weryfikacji (jak dane sie zmienily) i ew. wrocenia x krokow wczesniej - reguly - musi byc mozliwosc odpalenia wlasnych (jakis parser excelowych formul?)
Czyli taki ETL + własne kroki pisane we włąsnym języku (cośprostego pokroju excelowych formuł). Ktoś wie, czy możę AWS Glue to ogarnie? (ew + Simple Workflow Service)
(klient juz ma taki soft, ale działa za wolno wiec chce POC na AWS)
@mmichal: hm, powiem... genialne w prostocie :) - Tylko dla 100 równoległych plików musiałbym tworzyć osobne tabele. (dobra to nie problem) - ciężko zrobić cofnięcie 6 kroków wstecz? - nie ma toola na to
cały clue to POC i zrobić to używajac czegoś co już jest i najlepiej, niech AWS dba o to
@mccloud: nie :) Do tego musisz jakieś step functions mieć lub swf - chociaż nie testowalem tego drugiego
@Klopsztanga: O no właśnie o tym myślałem (SWF). To mi będzie wyzwalać "cząstkowy" flow w glue, najpierw 5 korków, potem kolejne itd. Od biedy wszystko będzie jakims osobnym jobem a tymczasowo wyniki sobie wrzuce na s3.
@mccloud: p-----l to, zatrudniajcie po prostu na bezpłatne trzymiesięczne staże na stanowisko data steward i ludzie będą to ogarniać w excelach. A tak serio to na Azure bym to zrobił za pomocą azure data factory i/albo azure functions więc na aws glue i aws lambda.
@Klopsztanga: No ja obu nie używałem. Ale sprawdze sobie.
@bacteria O rany. Za późno na tak długi tekst. Poczytam sobie tym wzorcu.
@ostrykuc666 Jeny, jak komuś przyjdzie ogarniać kilkuset megowy plik w excell + 100-200 reguł. Toż to rotacja będzie na poziomie 99% :) Dzięki za wskazówki - poptrze co odpowidenik może i co moge w aws.
jakie polskie słodycze/przysmaki mogę kupić ludziom, którzy nigdy nic polskiego nie jedli? myślałam nad kabanosami, polskimi ogórasami i kisielem, ale co jeszcze mogłabym kupić to nie wiem
- wpada sobie plik (CSV)
- na pliku wykonuje X reguł (powiedzmy takie formuły excelowe)
- wynik trafia do bazy/pliku (no to akurat chyba najmniej problemowe)
I problemy:
- w kazdej chwili proces moze zostac "przerwany"/"zatrzymany" np po wykonaniu 50 reguł i musi byc mozliwosc weryfikacji (jak dane sie zmienily) i ew. wrocenia x krokow wczesniej
- reguly - musi byc mozliwosc odpalenia wlasnych (jakis parser excelowych formul?)
Czyli taki ETL + własne kroki pisane we włąsnym języku (cośprostego pokroju excelowych formuł).
Ktoś wie, czy możę AWS Glue to ogarnie? (ew + Simple Workflow Service)
(klient juz ma taki soft, ale działa za wolno wiec chce POC na AWS)
#aws #etl
No i moze #programista15k - może ktoś miał podobne wymogi.
- Tylko dla 100 równoległych plików musiałbym tworzyć osobne tabele. (dobra to nie problem)
- ciężko zrobić cofnięcie 6 kroków wstecz?
- nie ma toola na to
cały clue to POC i zrobić to używajac czegoś co już jest i najlepiej, niech AWS dba o to
A da sie w glue zrobic "pause"... np po danym kroku czekaj na potwierdzenie? (znaczy to pewnie szedl by jakis triger przez lambde czy sns)
Nie miałem jeszcze doczynienia ze sparkiem i glue wiec to pewnie banalne pytanie.
@mccloud: tak
@mccloud: nie :) Do tego musisz jakieś step functions mieć lub swf - chociaż nie testowalem tego drugiego
@Klopsztanga: O no właśnie o tym myślałem (SWF). To mi będzie wyzwalać "cząstkowy" flow w glue, najpierw 5 korków, potem kolejne itd.
Od biedy wszystko będzie jakims osobnym jobem a tymczasowo wyniki sobie wrzuce na s3.
Bo jak moge klepnac cos w pythonie,
https://docs.microsoft.com/en-us/aspnet/mvc/overview/older-versions/getting-started-with-ef-5-using-mvc-4/implementing-the-repository-and-unit-of-work-patterns-in-an-asp-net-mvc-application
@bacteria O rany. Za późno na tak długi tekst. Poczytam sobie tym wzorcu.
@ostrykuc666 Jeny, jak komuś przyjdzie ogarniać kilkuset megowy plik w excell + 100-200 reguł. Toż to rotacja będzie na poziomie 99% :) Dzięki za wskazówki - poptrze co odpowidenik może i co moge w aws.
Kiedyś robiłem dla klienta w Knime i tam tego typu zadanie to był banał.