Wpis z mikrobloga

@dzejro: Ale co to za bazy? Masz zestaw wielu baz z których każda baza jest inna i ma inną strukturę czy szukasz technologii na razie i zastanawiasz się gdzie zapisywać olbrzymie ilosci danych żeby mieć w miarę szybkiego sqla?
  • Odpowiedz
Musisz mieć naprawdę ekstremalny przypadek żeby cokolwiek zewnętrznego było szybsze niż sama baza. Dbmsy są optymalizowane od dekad + mają dane lokalnie co daje ogromny boost.

Jeśli faktycznie masz taki case no to klaster + Spark i będzie szybko. Ale to nie jest coś co sam postawisz w rozsądnym czasie. Może są jakieś cloudowe rozwiązania które to ulatwiaja (databricks?) ale nie śledzę tematu więc nie pomogę.
  • Odpowiedz
@dzejro databricks tak jak sugerował @Krever postawisz sam szybko i dosyć bezboleśnie.
Jednak jakbyś podał więcej szczegółów do chcesz zrobić to łatwiej będzie doradzić.
  • Odpowiedz
@inny_89: @Krever: @enten: mam kilkanaście/kilkadziesiąt olbrzymich baz danych różnego typu (i.e. postgree, snowflake) i chciałabym je analizować w taki sposób ze wybieram sobie baze i na niej wykonuje jakies zapytanie - typu pobierz mi liste filmów z danymi ile zarobiły i posortuj po roku. Każda baza jest inna więc nie mogę napisać kodu pod baze i konkretne tabele
  • Odpowiedz
@dzejro: Faktycznie brzmi ok. Jeśli możesz to ja bym spróbował z każdej bazy zrobic etl na hdfsa + normalizacja i tam czesał sparkiem już z jednego źródła. Jeśli się nie da (bo szkoda storagu albo za dużo roboty) no to też Spark i bezpośrednio do każdej bazy ale wtedy będziesz za każdym razem płacił (w czasie wykonania) za transfer na klaster.
Przy czym najpierw sprawdź czy Spark ma connectory do wszystkich
  • Odpowiedz