Wpis z mikrobloga

Hejka #programowanie #machinelearning #datascience #python #naukaprogramowania
Czy jest tu ktoś, kto mógłby spojrzeć na dane, które sobie skleiłam i poinstruować co można z nim dalej zrobić w kierunku machine learningu? Notebook na google colab - chcę przeprowadzić predykcję plonów na podstawie zmiennych środowiskowych/klimatycznych. Mam dataset z dużą ilością parametrów (59 kolumn w tym czas posadzenia, czas zbiorów, temperatura, liczba dni poniżej różnych temperatur w okresie wzrostu itp.) i nie bardzo wiem co dalej.
Czy lepiej jak je jakoś sklasyfikuje albo wybiorę kilka z nich (boję się, że jak jest ich tak dużo i są takie różne, to potencjalne zależności się rozmyją i model będzie słabiacki)?

Dopiero uczę się tego tematu i będę wdzięczna za jakieś sugestie haseł, po których mogłabym sobie wyszukać co dalej zrobić!
  • 6
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@Networks_PowerCat: to tak:
dane kategoryczne (np. country albo item) zamienić na numerki i zakodować, najlepiej, one-hot encoderem, wartości liczbowe ujednolicić (bo widzę że są podane w różnych jednostkach, bo nawet jest taka kolumna) jeśli się da oczywiście, potem ustandaryzować lub znormalizować w przedziale [0;1] lub [-1;1]

Sprawdzić ile elementów brakuje w danych kolumnach, jeśli są spore braki, kolumny wywalić, jeśli są dosyć duże ale można je w miarę przystępnie wypełnić,
  • Odpowiedz
@Ark00: dzięki, OneHotEncoding to właśnie jedna z takich rzeczy, które super że ktoś mi powiedział (mogłam sobie doczytać, że jest preferowane do machine learningu żeby potem model nie zakładał, że wartości klas w intach są jakoś ze sobą połączone). I cyk kolejna rzecz nauczona.
  • Odpowiedz
@Networks_PowerCat: poczytaj sobie o pipelinach, wszystkie operacje które wykonujesz na złączonym train i test, powinno się robić osobno (tak aby nie doszło do information leakage), na moje oko CNN to fashion over function i prostsze modele mogą dać dużo lepsze rezultaty. Z wyrzucaniem bardzo mocno skorelowanych zmiennych "tak o" bym uważał bo możesz wyrzucić coś potrzebnego. Używając korelacji możesz też pozbyć się feature'ów, które najprawdopodobniej nie wpłyną na predykcję (im
  • Odpowiedz