Wpis z mikrobloga

Mirki z #bigdata #datascience
Moglibyście może podrzucić jakiś temat, który by nadawał się na projekt końcowy na podyplomówce z Big Data?
Taki na 2-3 osoby i na kilka tygodni pracy. Może ktoś robił coś ciekawego i podzieli się pomysłem?
Technologicznie to R, Python i SQL, do tego chętnie coś z Hadoopem.
Najchętniej z jakimś dużym, ogólnodostępnym setem danych.
Oglądałem jakieś datasety z R ale jestem bardziej IT niż data engineer i nie bardzo umiem sobie zdefiniować problem do analizy...
  • 8
  • Odpowiedz
@Malinozaur: w zasadzie tak, zawsze możesz zrobić lokalny klaster na jednej maszynie z małą próbką danych i później wrzucić finalnych skrypt np. na aws żeby pokazać że "to działa" na duży klaster. Przynajmniej ja bym tak zrobił ( ͡° ͜ʖ ͡°) Pamiętaj tylko Mirku żeby nie używać pythona do przetwarzania danych w spark, tam gdzie to możlwie używaj sql.
  • Odpowiedz