Wpis z mikrobloga

Skopiuj link

17.04.2019, 17:00:27

#datascience
#python

Uczę się data science i ML. Spotkałem się z czymś, czego nie do końca rozumiem. Do tej pory poprzez traintestsplit dzieliłem sobie zbiór na 2 grupy, wiadomo. Z kolei w jednej książce spotkałem się z pomysłem, aby dzielić nie na 2, ale na 3 grupy. Ta 3 miałaby być walidacyjną i miałaby służyć porównaniu z tą testową. Nie lepiej zrobić sobie pętlę z powiedzmy 30 iteracjami uzyskując różne grupy testowe i na nich od razu sprawdzać mając już gotowe jedno badanie?

haka65

17.04.2019, 17:04:14

@IsambardKingdomBrunel: Generalnie można myśleć o tym tak, że train/validation pochodzi ze zbioru uczącego a zbiór testowy to jest to co siedzi na produkcji. Poczytaj sobie jeszcze o k-fold cross-validation.

IsambardKingdomBrunel

17.04.2019, 17:05:31

@haka65: Co to znaczy 'na produkcji'? Do tej pory jak miałem dataset to był tylko jeden i to jego musiałem podzielić.

haka65

17.04.2019, 17:10:08

@IsambardKingdomBrunel: Przykładowo: trenujesz model na trainining secie, tuningujesz hiperparametry żeby zmaksymalizować wynik na zbiorze walidacyjnym. Potem sprawdzasz wyniki na testowym. Generalnie chodzi o to, że trening odbywa się bez żadnego udziału zbioru testowego.

arysto2011

17.04.2019, 17:38:27

@IsambardKingdomBrunel: Kazdy model jest tak dobry jak jego dane treningowe. To co widzisz w podziale na train i validate to zwykle "overfitting".

To znaczy, ze dane testowe maja inna dystrybucje niz danych, ktore modelujesz i jest w nich cos wiecej. Stad dane testowe, ktore nie mialy nigdy stycznosci z danymi treningowymi

vossinho2

17.04.2019, 17:57:11 via iOS

@IsambardKingdomBrunel: chodzi o to, że jak wykorzystujesz 2 zbiory to dostarając parametry na 2 zbiorze to wynik przy testowaniu będą przekłamane.

IsambardKingdomBrunel

17.04.2019, 18:09:45

@arysto2011: @vossinho2:

Czyli podsumowując, kiedy robię sobie podział i staram się dostroić ML, to prawie na pewno będzie to przekłamane, ponieważ jest to dopasowane tylko do 1 zbioru testowego?

vossinho2

17.04.2019, 18:12:29 via iOS

@IsambardKingdomBrunel: szczerze mówiąc to pisałem na podstawie deep learningu bo właśnie przerabiam książkę, ale skoro koledzy mieli podobne zdanie to postanowiłem się udzielić

arysto2011

17.04.2019, 18:15:49

@vossinho2: https://www.mlyearning.org

Ta ksiazka tlumaczy dlaczego.

Aktywne Wpisy

Kolorowezworki

Kolorowezworki +172

3 godz. i 37 min temu

Zdałem sobie sprawę, że przepisowa jazda po Polsce jest nie lada wyzwaniem. Podczas moich ostatnich wyjazdów, których trasa łącznie to ponad 2k km, postanowiłem sobie, że będę jechał w 100% zgodnie z przepisami. W przypadku ograniczenia prędkości - tempomat +7km/h bo o tyle mniej więcej zawyża mój prędkościomierz. Inni kierowcy się zachowują jak jakieś małpy - podjeżdżają pod dupę, machają łapami, migają światłami, wyprzedzają i hamują przed maską, wyprzedzają na trzeciego, wyprzedzają