Potrzebuje opinii kogoś bardziej doświadczonego jeśli chodzi o radzenie sobie z imbalanced data. Regresja logistyczna. Mam zbiór danych z 4000 wierszy (przed podziałem train test split) i w tym zbiorze jest tylko 16% wartości 1 wiec zbiór danych jest niezbalansowany. I tutaj mam pewne wątpliwości:
1.Czy metody SMOTE używamy przed podziałem zbioru na treningowy i testowy?
2.Co w przypadku gdy po upsamplingu SMOTE (zrobionym na zbiorze testowym) otrzymujemy dla modeli niższe accuracy
1.Czy metody SMOTE używamy przed podziałem zbioru na treningowy i testowy?
2.Co w przypadku gdy po upsamplingu SMOTE (zrobionym na zbiorze testowym) otrzymujemy dla modeli niższe accuracy
Cześć potrzebuje pomocy z Clusteryzacja Kmeans w pysparku. Potrzebuje by jedna zmiana z 31 miała większa wage przy tworzeniu klastrów niż inne - w jak sposób to mogę zrobić.
Kmeans=(featurescol=features, k=6, weightCol=???)
Ktoś ma pomysł co tam dać w tym weightCol? Niby wymaga żeby podac string i nie mam pojęcia jak tego użyć. Dodam tylko ze w pysparku zmienne są w vectorze. Każda pomoc się przyda.
https://danvatterott.com/blog/2019/11/18/balancing-model-weights-in-pyspark/