Wpis z mikrobloga

Robie projekt hobbystycznie i mam taki problem ze chce pokazywac predykcje procentowe na podstawie dynamicznie zmieniajacych sie danych. Jak uzywam drzew itp to czasami predykcje maja idiotyczne skoki procentowe. Poki co zauwazylem ze najbardziej stabilny jest DeepLearning i nie ma skokow ale ma o wiele mniejsza skutecznosc. I tu pytanie: czy jest jakis algo co fajnie daje predykcje procentowe ? Mial ktos podobny problem ?

Imo obejsciem jest zeby stacked zrobic i deeplearning jako superlearner ale jeszcze tego nie sprawdzilem.

#machinelearning
  • 7
@PhoenixPneuma: Co jest miarą jakości oferowanego rozwiązania? Fajna prezentacja czy "skuteczność"? Jak mierzona jest "skuteczność"?

No bo jeśli skuteczna metoda predykcji czegośtam ma nagłe skoki procentowe w szacunkach to nie jest jej problem, że według Ciebie "czasami predykcje maja idiotyczne skoki procentowe". Predykcje nie mają być ładne, tylko jak najbliższe prawdy.
@Ilythiiri predyktor dostaje co sekunde dane zaciagane live i klasyfikator dwuklasowy wyrzuca ile procent na klase 1 a ile na klase 2 - no i tu drzewa niekiedy rzucaja totalnie nierealne wartosci patrzac na dane. A to dlatego ze dane akurat trafiaja w jakas galaz gdzie taka predykcja wyszla z uczenia. A ja chce miec w miare stabilne wartosci procentowe nawet kosztem accuracy. Dobrze wyjasnilem tym razem ? To kwestia prezentacji innymi
@Ilythiiri no i tak... tak musi byc. Ja mam pomysl ze zrobie stacked ensemble z lepszych algo typu drzewa xgboost gbm knn a pozniej deep learning odpale na tych danych z predykcji - powinno to wyjsc duzo lepiej imo

Bo deeplearning zwraca stabilne wartosci - jakby dawal dokladna szanse procentowa na wystapienie danej klasy i o to tu chodzi.
tu drzewa niekiedy rzucaja totalnie nierealne wartosci patrzac na dane. A to dlatego ze dane akurat trafiaja w jakas galaz gdzie taka predykcja wyszla z uczenia. A ja chce miec w miare stabilne wartosci procentowe nawet kosztem accuracy. Dobrze wyjasnilem tym razem ?


@PhoenixPneuma: No dobra, to brzmi lepiej skoro wyniki wychodzą nierealne.

W takim razie nie pomogę, bo z ML znam wyłącznie podstawy podstaw, brakuje mi wiedzy wypowiedzieć się dalej.
@PhoenixPneuma: Drzewa decyzyjne zwracają jedynie prawdopodobieństwo wystąpienia danego przypadku w zbiorze uczącym i to po uwzględnieniu podziałów (rozgałęzień drzew), stąd nigdy nie dostaniesz "gładkich" prawdopodobieństw zmieniając lekko wartości.

Decyzja, czy korzystasz z prostych algorytmów klasycznego uczenia maszynowego, czy z deep learningu, nie powinna natomiast zależeć od tego, jak chciałbyś, żeby zmieniały się prawdopodobieństwa na wyjściu, tylko od tego, ile masz danych i jak skomplikowany jest problem (czy jesteś w stanie wyuczyć
Co pokazuje feature importance w drzewach? Jeśli jedna cecha odpowiada za 80-90% istotności wyniku to znaczy, że model jest zły. Niezależnie od tego jak skuteczny jest na zbiorze testowym. Radziłbym sprawdzić, czy:
a) Nie masz jakichś "przecieków" w danych treningowych, czyli takich danych, które są w danych treningowych, ale ty nie masz ich w czasie rzeczywistym - to dosyć częsty błąd.
b) Tak wykonać feature engineering, żeby model lub modele nie