Wpis z mikrobloga

W #machinelearning jest takie pojęcie jak data leakage. Powiedzmy, że widzimy, że jest duża zależność między tym jednym parametrem, a przewidywanym wynikiem.
To co słyszałem, to to, że najpewniej tego parametru nie powinniśmy używać, ale to dla mnie nie do końca ma sens, bo jeśli coś jest nam znanym parametrem i w praktycznym ('produkcyjnym') wykorzystaniu modelu, nadal będziemy mieć do niego dostęp, to dlaczego mielibyśmy się go pozbyć?
#naukaprogramowania #datascience
źródło: comment_1643469459zbGAHDNHSB0KezezrFdhbX.jpg
  • 2
@#!$%@?: tylko tutaj chodzi o dane, których nie będziesz miał na moment użycia modelu. Przykładowo próbujesz ocenić czy hipoteka się spłaci, a do tworzenia modelu użyłbyś zmiennej, która mówi czy klient miał zaległości w 3 miesiącu na tej hipotece, gdzie na moment oceny jeszcze tego nie wiesz.
@#!$%@?: to co opisujesz to współliniowość statystyczna, i tak czasem lepiej żeby jej nie było bo mocno skorelowane cechy przy dużych odchyleniach będą powodować niewłaściwe estymacje wyników. Ale dużo zależy od danych jakie posiadasz, jeśli np. zakładasz, że zmienna mocno skorelowana z wyjściem nie powinna odbiegać od rozkładu i wartości które posiadasz w zbiorze treningowym to warto ją umieścić i sprawdzić jak będzie wpływać na wynik.
Data leak to zjawisko które zostało