Hejka #programowanie #machinelearning #datascience #python #naukaprogramowania Czy jest tu ktoś, kto mógłby spojrzeć na dane, które sobie skleiłam i poinstruować co można z nim dalej zrobić w kierunku machine learningu? Notebook na google colab - chcę przeprowadzić predykcję plonów na podstawie zmiennych środowiskowych/klimatycznych. Mam dataset z dużą ilością parametrów (59 kolumn w tym czas posadzenia, czas zbiorów, temperatura, liczba dni poniżej różnych temperatur w okresie wzrostu itp.) i nie bardzo wiem co dalej. Czy lepiej jak je jakoś sklasyfikuje albo wybiorę kilka z nich (boję się, że jak jest ich tak dużo i są takie różne, to potencjalne zależności się rozmyją i model będzie słabiacki)?
Dopiero uczę się tego tematu i będę wdzięczna za jakieś sugestie haseł, po których mogłabym sobie wyszukać co dalej zrobić!
@Networks_PowerCat: to tak: dane kategoryczne (np. country albo item) zamienić na numerki i zakodować, najlepiej, one-hot encoderem, wartości liczbowe ujednolicić (bo widzę że są podane w różnych jednostkach, bo nawet jest taka kolumna) jeśli się da oczywiście, potem ustandaryzować lub znormalizować w przedziale [0;1] lub [-1;1]
Sprawdzić ile elementów brakuje w danych kolumnach, jeśli są spore braki, kolumny wywalić, jeśli są dosyć duże ale można je w miarę przystępnie wypełnić,
@Ark00: dzięki, OneHotEncoding to właśnie jedna z takich rzeczy, które super że ktoś mi powiedział (mogłam sobie doczytać, że jest preferowane do machine learningu żeby potem model nie zakładał, że wartości klas w intach są jakoś ze sobą połączone). I cyk kolejna rzecz nauczona.
@Networks_PowerCat: poczytaj sobie o pipelinach, wszystkie operacje które wykonujesz na złączonym train i test, powinno się robić osobno (tak aby nie doszło do information leakage), na moje oko CNN to fashion over function i prostsze modele mogą dać dużo lepsze rezultaty. Z wyrzucaniem bardzo mocno skorelowanych zmiennych "tak o" bym uważał bo możesz wyrzucić coś potrzebnego. Używając korelacji możesz też pozbyć się feature'ów, które najprawdopodobniej nie wpłyną na predykcję (im
Czy jest tu ktoś, kto mógłby spojrzeć na dane, które sobie skleiłam i poinstruować co można z nim dalej zrobić w kierunku machine learningu? Notebook na google colab - chcę przeprowadzić predykcję plonów na podstawie zmiennych środowiskowych/klimatycznych. Mam dataset z dużą ilością parametrów (59 kolumn w tym czas posadzenia, czas zbiorów, temperatura, liczba dni poniżej różnych temperatur w okresie wzrostu itp.) i nie bardzo wiem co dalej.
Czy lepiej jak je jakoś sklasyfikuje albo wybiorę kilka z nich (boję się, że jak jest ich tak dużo i są takie różne, to potencjalne zależności się rozmyją i model będzie słabiacki)?
Dopiero uczę się tego tematu i będę wdzięczna za jakieś sugestie haseł, po których mogłabym sobie wyszukać co dalej zrobić!
o ile takie są
dane kategoryczne (np. country albo item) zamienić na numerki i zakodować, najlepiej, one-hot encoderem, wartości liczbowe ujednolicić (bo widzę że są podane w różnych jednostkach, bo nawet jest taka kolumna) jeśli się da oczywiście, potem ustandaryzować lub znormalizować w przedziale [0;1] lub [-1;1]
Sprawdzić ile elementów brakuje w danych kolumnach, jeśli są spore braki, kolumny wywalić, jeśli są dosyć duże ale można je w miarę przystępnie wypełnić,