Wpis z mikrobloga

Skopiuj link

30.01.2021, 16:35:42

Hejka #programowanie #machinelearning #datascience #python #naukaprogramowania
Czy jest tu ktoś, kto mógłby spojrzeć na dane, które sobie skleiłam i poinstruować co można z nim dalej zrobić w kierunku machine learningu? Notebook na google colab - chcę przeprowadzić predykcję plonów na podstawie zmiennych środowiskowych/klimatycznych. Mam dataset z dużą ilością parametrów (59 kolumn w tym czas posadzenia, czas zbiorów, temperatura, liczba dni poniżej różnych temperatur w okresie wzrostu itp.) i nie bardzo wiem co dalej.
Czy lepiej jak je jakoś sklasyfikuje albo wybiorę kilka z nich (boję się, że jak jest ich tak dużo i są takie różne, to potencjalne zależności się rozmyją i model będzie słabiacki)?

Dopiero uczę się tego tematu i będę wdzięczna za jakieś sugestie haseł, po których mogłabym sobie wyszukać co dalej zrobić!

ProfesorBigos

30.01.2021, 16:46:56

@Networks_PowerCat: https://scikit-learn.org/stable/modules/feature_selection.html#feature-selection

CancerLight

30.01.2021, 16:47:15 via Android

@Networks_PowerCat @wioseneczka się uczy ml, jest dobra to może do niej napisz. Jak dwie różowe będą się wspierać w programowaniu, to będzie fajnie

blablalbla

30.01.2021, 18:33:14

@Networks_PowerCat: możesz np usunąć zmienne zbyt mocno ze sobą skorelowae i te o małej zmienności np wsp zmienności mniej niz 0.1
o ile takie są

Ark00

30.01.2021, 22:59:48

@Networks_PowerCat: to tak:
dane kategoryczne (np. country albo item) zamienić na numerki i zakodować, najlepiej, one-hot encoderem, wartości liczbowe ujednolicić (bo widzę że są podane w różnych jednostkach, bo nawet jest taka kolumna) jeśli się da oczywiście, potem ustandaryzować lub znormalizować w przedziale [0;1] lub [-1;1]

Sprawdzić ile elementów brakuje w danych kolumnach, jeśli są spore braki, kolumny wywalić, jeśli są dosyć duże ale można je w miarę przystępnie wypełnić,

Networks_PowerCat

31.01.2021, 18:48:53

@Ark00: dzięki, OneHotEncoding to właśnie jedna z takich rzeczy, które super że ktoś mi powiedział (mogłam sobie doczytać, że jest preferowane do machine learningu żeby potem model nie zakładał, że wartości klas w intach są jakoś ze sobą połączone). I cyk kolejna rzecz nauczona.

leoshelby

13.02.2021, 10:11:01

@Networks_PowerCat: poczytaj sobie o pipelinach, wszystkie operacje które wykonujesz na złączonym train i test, powinno się robić osobno (tak aby nie doszło do information leakage), na moje oko CNN to fashion over function i prostsze modele mogą dać dużo lepsze rezultaty. Z wyrzucaniem bardzo mocno skorelowanych zmiennych "tak o" bym uważał bo możesz wyrzucić coś potrzebnego. Używając korelacji możesz też pozbyć się feature'ów, które najprawdopodobniej nie wpłyną na predykcję (im