Wpis z mikrobloga

Skopiuj link

27.01.2022, 12:06:44

Nie używaj Sparka do Machine Learning

https://bulldogjob.pl/readme/nie-uzywaj-sparka-do-uczenia-maszynowego

#machinelearning #programowanie #naukaprogramowania #spark

Hadzik

27.01.2022, 12:42:21

@Bulldogjob:

z mojego doświadczenia wynika, że osoby zajmujące się data science, nie są tak dobrze zaznajomione z (Py)Spark, jak z Pandas. W obu przypadkach wykorzystywana jest koncepcja ramek danych, ale API do manipulowania danymi w ramce jest zupełnie inny.

Był Koalas, a teraz już nawet nie trzeba:
https://databricks.com/blog/2021/10/04/pandas-api-on-upcoming-apache-spark-3-2.html#:~:text=We're%20thrilled%20to%20announce,on%20their%20existing%20Spark%20clusters.

mrocznapszczola

27.01.2022, 13:49:38

Dobry clickbait, artykuł powinien nazywać się nie uzywaj PySparka ( ͡° ͜ʖ ͡°)

inny_89

27.01.2022, 20:44:18

@Bulldogjob: ehhh, dałem się złapać na clickbajtowy tytuł. Argumenty przeciw sparkowi są prawdziwe ale w praktyce należy je pominąć z rozważań. Zwłaszcza argument o syntax pysparka vs pandasa