Wpis z mikrobloga

@Bulldogjob:

z mojego doświadczenia wynika, że osoby zajmujące się data science, nie są tak dobrze zaznajomione z (Py)Spark, jak z Pandas. W obu przypadkach wykorzystywana jest koncepcja ramek danych, ale API do manipulowania danymi w ramce jest zupełnie inny.


Był Koalas, a teraz już nawet nie trzeba:
https://databricks.com/blog/2021/10/04/pandas-api-on-upcoming-apache-spark-3-2.html#:~:text=We're%20thrilled%20to%20announce,on%20their%20existing%20Spark%20clusters.