Ale chcę to posortować i .orderBy(col("nazwakolumny").desc()) mi nie działa.
Jako ciekawostka - w jednym notebooku mi to ładnie działa, a w innym nie.
Nie wywala błędu, tylko po prostu nie sortuje.
Jakieś pomysły? Nie mam jakichś funkcji dociągniętych czy co?
#pyspark #synapse #bigdata #python
Dataframy mi się sortują ładnie. Teraz pytanie - czy taki posortowany dataframe mogę zapisać jako posortowany parquet?
Bo zwykłe zapisane posortowanego df niestety nie daje oczekiwanego rezultatu i parquet (a potem external table z tego parqueta) nie są posortowane po tej kolumnie co dataframe.
Pewnie jest opcja, że się nie da, bo tabela to logiczne dane, a nie posortowany zestaw danych?
#pyspark #
Jeśli twój DF jest dość mały, możesz spróbować zapisania go jako jedna partycja (df.coalesce(1)), wtedy sortowanie powinno być zachowane, ale tracisz obliczenia na wielu klastrach.