Wpis z mikrobloga

#programowanie newbe #bigdata #aws
cześć,
głowię się i szukam rozwiązania swojego problemu, może coś doradzicie?:
zajmuję się wyszukiwarką w BigData od strony architektury, mam dużo grupowań więc zrezygnowałem z elasticsearch, poza tym pliki w ORC, ale da radę przenieść do innego formatu, tylko jakiego silnika najlepiej użyć? AWS here, Athena jest słaba (max 20-80 zapytań na 1s, a ja potrzebuję tak około 200-500 na 1s). Sensowny Redshift jest mega drogi... Znacie coś godnego polecenia, nie koniecznie AWS?
Skala to grupowanie/wyszukiwanie po około 20mln rekorów tygodniowo, z akumulacją do 1 miesiąca, baza przyrostowa, grupowana po przynajmniej 5 kolumnach
  • 1
@wiedzmikolaj: cluster hive, lub jakiś spark. Jak grupujesz po dacie zobacz na timestream. Tanio nie będzie, bo trzeba mocy przerobowej. Może zamiast analizować wszystkie rekordy grupuj dane co godzinę, by pracować na mniejszej ilości danych zamiast na raw data. Aby lepiej dobrać silnik daj informacje co potrzebujesz dokładnie robić na danych i co w nich masz.