Wpis z mikrobloga

Skopiuj link

29.01.2022, 15:17:41

W #machinelearning jest takie pojęcie jak data leakage. Powiedzmy, że widzimy, że jest duża zależność między tym jednym parametrem, a przewidywanym wynikiem.
To co słyszałem, to to, że najpewniej tego parametru nie powinniśmy używać, ale to dla mnie nie do końca ma sens, bo jeśli coś jest nam znanym parametrem i w praktycznym ('produkcyjnym') wykorzystaniu modelu, nadal będziemy mieć do niego dostęp, to dlaczego mielibyśmy się go pozbyć?
#naukaprogramowania #datascience

JebawczanRysionu - W #machinelearning jest takie pojęcie jak data leakage. Powiedzmy,... — **źródło:** comment_1643469459zbGAHDNHSB0KezezrFdhbX.jpg
Pobierz

odrzutowakuchenka

30.01.2022, 05:10:19

@JebawczanRysionu: tylko tutaj chodzi o dane, których nie będziesz miał na moment użycia modelu. Przykładowo próbujesz ocenić czy hipoteka się spłaci, a do tworzenia modelu użyłbyś zmiennej, która mówi czy klient miał zaległości w 3 miesiącu na tej hipotece, gdzie na moment oceny jeszcze tego nie wiesz.

mrocznapszczola

31.01.2022, 09:27:29

@JebawczanRysionu: to co opisujesz to współliniowość statystyczna, i tak czasem lepiej żeby jej nie było bo mocno skorelowane cechy przy dużych odchyleniach będą powodować niewłaściwe estymacje wyników. Ale dużo zależy od danych jakie posiadasz, jeśli np. zakładasz, że zmienna mocno skorelowana z wyjściem nie powinna odbiegać od rozkładu i wartości które posiadasz w zbiorze treningowym to warto ją umieścić i sprawdzić jak będzie wpływać na wynik.
Data leak to zjawisko

Aktywne Wpisy

Aktywne Znaleziska

Kontrowersyjna metoda egzekucji. W USA użyto jej po raz drugi

Chcieli zbudować wymarzony dom. "Póki co jest sterta gruzu"

Lewicowa głupota. Ograniczenie do 50 km/h na obwodnicy stolicy

Kupiłem NOWY sprzęt w znanej sieci RTV, gwarancja skończyła się 3 lata temu!

Żabka: Zobacz Zanim To USUNĄ

Popularne tagi