Wpis z mikrobloga

#datascience
#python

Uczę się data science i ML. Spotkałem się z czymś, czego nie do końca rozumiem. Do tej pory poprzez traintestsplit dzieliłem sobie zbiór na 2 grupy, wiadomo. Z kolei w jednej książce spotkałem się z pomysłem, aby dzielić nie na 2, ale na 3 grupy. Ta 3 miałaby być walidacyjną i miałaby służyć porównaniu z tą testową. Nie lepiej zrobić sobie pętlę z powiedzmy 30 iteracjami uzyskując różne grupy testowe i na nich od razu sprawdzać mając już gotowe jedno badanie?
  • 8
@IsambardKingdomBrunel: Przykładowo: trenujesz model na trainining secie, tuningujesz hiperparametry żeby zmaksymalizować wynik na zbiorze walidacyjnym. Potem sprawdzasz wyniki na testowym. Generalnie chodzi o to, że trening odbywa się bez żadnego udziału zbioru testowego.
@IsambardKingdomBrunel: Kazdy model jest tak dobry jak jego dane treningowe. To co widzisz w podziale na train i validate to zwykle "overfitting".

To znaczy, ze dane testowe maja inna dystrybucje niz danych, ktore modelujesz i jest w nich cos wiecej. Stad dane testowe, ktore nie mialy nigdy stycznosci z danymi treningowymi