Wpis z mikrobloga

Skopiuj link

03.07.2019, 10:09:32

Hej, robię właśnie model regresji logistycznej i napotkałem pewien problem, więc pomyślałem że może tu ktoś będzie wiedział jak to rozwiązać. Mianowicie, zestaw danych, który służy mi za uczący i testowy (ofc separuję te części), zawiera małą ilość wyników należących do jednej kategorii (przykładowo - 3000 wyników dla kategorii pierwszej, 67000 wyników dla kategorii drugiej). Problem jest taki, że o ile model często ma ostateczną wydajność ok. 97%, to nie klasyfikuje poprawnie prawie żadnych wyników tej klasy z mniejszą ilością danych. Wymyśliłem, żeby ograniczyć rozmiar kategorii drugiej zbioru uczącego do rozmiaru pierwszej i rzeczywiście więcej wyników pada w mniejszej kategorii, ale też ogólna wydajność modelu spada do 70-80%. Znacie jakieś metody balansowania tych zbiorów?

#machinelearning #programowanie

kiwis

03.07.2019, 10:45:48

@NieJestemAgentemBialkova: I te 70-80% jest prawidłowe. Problem dla modelu jest taki, że w uproszczeniu jeżeli w ciemno bedziesz wybierał te przypadki z 67000 to będziesz miał większą skuteczność. Możesz pooglądać krzywe ROC i zobaczyć czy znajdziesz parametr, który będzie Cię satysfakcjonował i oczywiście dylemat błąd 1/2 rodzaju.

skrzacik320

03.07.2019, 15:05:15

@NieJestemAgentemBialkova: Możesz przypisywać przykładom wagi, przy liczeniu funkcji celu, w zależności, z którego zbioru są. Możesz losować przykłady do wsadu w inny sposób, żeby mały zbiór pojawiał się częściej.

NieJestemAgentemBialkova

Kura_Wasylisa

03.07.2019, 19:23:14 via Android

@NieJestemAgentemBialkova tak naprawde Null Accuracy w 1 przypadku wynosi 67/70 i mimo wysokiej wartosci model osiagajacy ja jest bezuyteczny.

Można stosowac wagi, można sprobowac SMOTE lub tak jak zrobiles - downsampling, polecam przejsc z metryka na AUC lub F1 i ustalac punkt odciecia na udziale liczniejszej klasy (czyli 67/70)

NieJestemAgentemBialkova

Aktywne Wpisy

McBreed

McBreed +145

5 godz. i 36 min temu

zabrałem się za oklejanie, umyłem, odtluscilem i zmarnowałem jakieś 3,
może 4 metry folii zanim nauczyłem się, jak działa i jak się na niej pracuje ¯_(ツ)_/¯
wyszło spoko, jutro będę oklejal dach i może coś jeszcze, jak czas na to pozwoli.
będę zdawał relacje z dalszych prac, trzymajta się ogulem ( ͡° ͜ʖ ͡°)
#stepujacymechanik #diy #motoryzacja #samochody ##!$%@?

**źródło:** temp_file4810106754431140910

lukasj

lukasj +123

5 godz. i 5 min temu

Uczestniczyłem w takim programie. W sumie darmowy, szkolenia z marketingu internetowego itd. Program bardzo fajny. Ale jest pewien problem... były jakieś miejsca na płatny staż po zakończeniu programu. Niby miałem nie kandydować ale jednak pomyślałem - a co mi szkodzi - więc się zgłosiłem. No i kandydaci byli punktowani. Zabrakło mi jednego punkta. Dlaczego o tym piszę? Chyba się domyślacie za co był dodatkowy punkt.

Niestety, tego punktu nie dostałem, bo urodziłem

Aktywne Wpisy

Aktywne Znaleziska

"Interwencja". Sąd przyznał, że należy im się lokal socjalny. Czekają 14 lat

Chcą zalegalizować wszystkie narkotyki. Ma to pomóc uzależnionym

Kaczyński tańczy i śpiewa z Rydzykiem na Jasnej Górze

"Mistrzowie zaliczek". Klienci stratni na 120 tys. złotych

Były chiński min sprawiedliwości skazany na śmierć za korupcję

Popularne tagi