@erwit: Ponieważ analizujemy dane sklepów, które są dosyć 'konwencjonalne' (tj. bazy po kilka milionów zamówień max) nie potrzebujemy kombajnu do big daty jakim jest Spark.

Lepsze rezultaty osiągamy zwykłym Pythonem i jego bardziej rozbudowanymi machine learningowymi bibliotekami(w porównaniu do Spark ML), a ponieważ mamy mocne maszyny + możliwość odpalenia się chmurowo to z potencjalnym "OutOfMemoryError" nie mamy żadnych problemów.

Spark jest naprawdę niesamowitą i sensowną technologią(bardzo podoba mi się jego
  • Odpowiedz