Wpis z mikrobloga

Skopiuj link

19.07.2022, 10:53:20

0

#datascience

Cześć potrzebuje pomocy z Clusteryzacja Kmeans w pysparku. Potrzebuje by jedna zmiana z 31 miała większa wage przy tworzeniu klastrów niż inne - w jak sposób to mogę zrobić.

Kmeans=(featurescol=features, k=6, weightCol=???)

Ktoś ma pomysł co tam dać w tym weightCol? Niby wymaga żeby podac string i nie mam pojęcia jak tego użyć. Dodam tylko ze w pysparku zmienne są w vectorze. Każda pomoc się przyda.

19.07.2022, 11:51:17

0

@srutownik: weightCol to chyba będzie nazwa kolumny z DataFrame'a, która zawiera wagi

19.07.2022, 13:36:05

0

@wezuza123: i pewnie ta nazwa kolumny musi być tez wektorem pewnie nie?

19.07.2022, 15:04:42 via iOS

0

@srutownik: Kmeans to naiwny algorytm i opiera się na odległości wiec możesz po znormalizowaniu pomnożyć te jedna zmienna xD

19.07.2022, 15:06:10 via iOS

0

@srutownik: prześledź to

https://danvatterott.com/blog/2019/11/18/balancing-model-weights-in-pyspark/