Wpis z mikrobloga

Skopiuj link

27.02.2022, 18:07:46

Potrzebuje opinii kogoś bardziej doświadczonego jeśli chodzi o radzenie sobie z imbalanced data. Regresja logistyczna. Mam zbiór danych z 4000 wierszy (przed podziałem train test split) i w tym zbiorze jest tylko 16% wartości 1 wiec zbiór danych jest niezbalansowany. I tutaj mam pewne wątpliwości:

1.Czy metody SMOTE używamy przed podziałem zbioru na treningowy i testowy?
2.Co w przypadku gdy po upsamplingu SMOTE (zrobionym na zbiorze testowym) otrzymujemy dla modeli niższe accuracy niż bez tego upsamplingu?
3. Wszystkie rady będą mile widziane :)

Poniżej sposób jakim zrobiłem upsampling:
s = SMOTE(samplingstrategy = 1, randomstate=1)
Xtrainsmote, ytrainsmote = s.fitresample(Xtrain, y_train.ravel())

#datascience

fidd27

27.02.2022, 18:42:26

Najpierw split, potem SMOTE

https://kiwidamien.github.io/how-to-do-cross-validation-when-upsampling-data.html

@srutownik:

mrocznapszczola

28.02.2022, 09:17:19

@srutownik: dużo zależy od tego jak wyglądają dane czy można je łatwo podzielić nawet w przestrzeni 2/3d ewentualnie usunąć te cechy które powoduja największe anomalie. Sama metoda SMOTE pomoże, ale zasadnicza hipoteza którą powinieneś zbadać to:
"Czy moje dane można w łatwy sposób podzielić w przestrzeni, a jeśli nie to które zmienne powodują największe anomalie"

Zacząłbym od takiego założenia, 16% to jednak dosyć dużo i powinno być widać wizualnie ile

srutownik

28.02.2022, 10:13:00

@mrocznapszczola: czyli detekcja outlierów najpierw zrobić?

mrocznapszczola

28.02.2022, 10:15:48

@srutownik: Zacznij od porządnej analizy danych a później weź sie za algorytmy klasyfikacji. Jeśli stwierdzisz w trakcie analizy, że dane są mało spójne tzn. posiadają dużo szum to musisz go usunąć i dopiero później stwiedzić czy potrzebujesz metod rozszerzania danych.

Aktywne Wpisy

mickpl

mickpl +148

5 godz. i 57 min temu

Januszom zachodzącym w głowę gdzie no ci studenci na których od 3 miesięcy czeka mój kurnik podzielony na 6 pokoi odpowiadam.

Po pierwsze Ukraińcy dalej masowo opuszczają Polskę (głównie na zachód), a prawie połowa deklaruje wyjazd do końca roku.

Po drugie zaledwie 54% tegorocznych maturzystów planuje iść na studia. 10 lat temu szło 95%. Czyli nie tylko liczba młodych generalnie spada, ale o połowę spadła liczba osób idących na studiach.

Czy

Bertoos

Bertoos +140

5 godz. i 50 min temu

#praca #pracait #takaprawda #januszebiznesu #polska