Wpis z mikrobloga

Doszedłem do takiego momentu w pracy, że niestety Excel przestał sobie radzić z tak dużymi wolumenami danych, że postanowiłem rozszerzyć wiedzę o inne technologie. Ze swojego doświadczenia co polecacie? Myślałem o pythonie + jakaś bilbioteka, czy np. przy używaniu pandas będę musiał uczyć się pythona od zera czy wystarczy odrazu uczyć się w kontekście tych bibliotek do analizy danych i to wystarczy? #programowanie #pracbaza #pracait
  • 7
@dexterpol: Jeżeli mówisz o naprawdę dużych wolumenach, to rzeczywiście Python ułatwi Ci pracę. Do tego PySpark - biblioteka pythonowa, nakładka na Spark'a.
Aby skalować swoje rozwiązania popatrz na Jakąś chmurę. Spark na AWS, GCP BigQuery, Azure Data Factory.

Ale to wymaga dużego skila w programowaniu i w Opsach.

Jeżeli kompletnie nie chcesz mieć do czynienia z ustawianiem infrastruktury, bezpieczeństwem etc, to jedyne w co musisz zainwestować to nauka SQLa i kupno
@arysto2011: Implementowanie rozwiązań cloudowych to w ogóle wykracza poza moje kompetencje i możliwości. Jest to korpo, więc już tutaj chmura istnieje, ale muszę się dowiedzieć jaki jest tego dostawca. Prawdopodobnie z takiej chmury będę eksportował dane (pomijając dotychczasowe oprogramowanie biznesowe). Natomiast mnie tylko interesuje sam fakt przetwarzania danych, więc jak napisałeś wyżej, będę musiał zacząć od nauki pythona, jego bibliotek i odświeżyć sobie SQL
@dexterpol: Dowiedz się jaka chmura i wtedy odpowiednie rozwiązanie np. odpowiednia dedykowana hurtownia danych. A jak nie, to polecam Snowflake. Zreszta, jedno nie wyklucza drugiego. Snowflake ma możliwości importu z chmur z data lejków i z brokerów typu Kafka.