Wpis z mikrobloga

Dlaczego aby zastosowaćalgorytmy uczenia maszynowego dane muszą mieć rozkład normalny? Wgl tego nie czaje.


@yras8: Raczej nie muszą. Estymator to statystyka służąca do szacowania wartości parametru jakiegoś rozkładu/modelu. Rozkład normalny daje ci tylko to, że wiedząc, że dane mają rozkład normalny możesz określić jaki rozkład będzie miał estymator parametru.

Innymi słowy: Chcesz określić wartość jakiegoś parametru w populacji (np. średni wzrost Polaków), a masz tylko jakąś próbkę tej populacji (wzrost stu
  • Odpowiedz
W machine learningu takich analiz raczej się nie wykonuje.


@Nicolas_Bourbaki:

Analiz się nie wykonuje. Ale są dziesiątki algorytmów które wymagają przynajmniej standaryzowania danych. (puść sobie dowolnego SVN bez standaryzacji to się zdziwisz). A praktyka pokazuje że głupie drzewa działają 2x lepiej jak znormalizujesz dane, niekoniecznie do N(0,1)

@yras8: podaj proszę kontekst, bo ciężko się odnieść nie wiedząc o jakie konkretnie estymatory chodzi
  • Odpowiedz
@askorek: normalizacja, a rozklad normalny to dwi rozne rzeczy.

Z tego co pamietam, niektore modele ML duzo lepsze wyniki uzyskują przy rozkladzie normalnym cech i na takich danych powinny byc uczone. Drzewopochodne są akurat odporne na typ rozkladu.
@Nicolas_Bourbaki:
  • Odpowiedz
@askorek: normalizacja, a rozklad normalny to dwi rozne rzeczy.


@xstempolx: No właśnie. Normalizacja, czy standardyzacja w pewnym sensie sprowadza ci dane do takiej samej "jednostki", np do odchylenia standardowego w przypadku tej drugiej.

Tak naprawdę ten rozkład normalny nawet w przypadku statystyki jest przereklamowany. To może miało sens w erze przed komputerami gdzie wyznaczenie przedziałów ufności było utrudnione. Dlatego trzeba było sprowadzić rozkład do jakieś wyspecyfikowanych rozkładów typu rozakład t-Studenta
  • Odpowiedz