Wpis z mikrobloga

Hej, robię właśnie model regresji logistycznej i napotkałem pewien problem, więc pomyślałem że może tu ktoś będzie wiedział jak to rozwiązać. Mianowicie, zestaw danych, który służy mi za uczący i testowy (ofc separuję te części), zawiera małą ilość wyników należących do jednej kategorii (przykładowo - 3000 wyników dla kategorii pierwszej, 67000 wyników dla kategorii drugiej). Problem jest taki, że o ile model często ma ostateczną wydajność ok. 97%, to nie klasyfikuje poprawnie prawie żadnych wyników tej klasy z mniejszą ilością danych. Wymyśliłem, żeby ograniczyć rozmiar kategorii drugiej zbioru uczącego do rozmiaru pierwszej i rzeczywiście więcej wyników pada w mniejszej kategorii, ale też ogólna wydajność modelu spada do 70-80%. Znacie jakieś metody balansowania tych zbiorów?

#machinelearning #programowanie
  • 3