Wpis z mikrobloga

@enten no jesli mam dataset i splituje go na 3 osobne datasety ( split kolumnami nie wierszami ) pozniej robie stacka np z 5 algo na kazdy z datasetow i na koncu superlearner to chocby mozliwosci jest wiele jesli chodzi o to z jakich algo robic te stacki pierwszego poziomu
@enten poza tym zastanawia mnie tez jak mam np 2 algo powiedzmy drzewa i knn i na danych testowych oba sie myla powiedzmy w 10 proc danych to jak sprawdzic w ilu procentach czy jakiej ilosci pomylka zaszla w tych samych wierszach - pewnie trzeba to wykodzic w pajtonie tylko nw jak poki co :) a moze jest jakas ez func w scikit do tego
@PhoenixPneuma: Musisz sprawdzić jak dokładnie się mylą (czy kuleje precision czy recall) jak zmienia się bias a jak variance. W zależności od tego mozesz dobierać algorytmy które wpływają na zredukowanie obciążenia lub wariancji (poczytaj sobie bias-variance tradeoff). Jest też generalnie taka zasada, ze jak base learners są jakieś ciężkie (np. sieci neuronowe), to jako super learner coś prostego wystarczy np. regresja logistyczna lub drzewko decyzyjne i odwrotnie. Możesz sobie zbudować dużo
@enten o kurde xd no no jest sie czego uczyc ! Dzieki bardzo to mi uswiadamia ze te wszystkie dziwne rzeczy ktore olallem wczesniei sa mi potrzebne. Dzis wlasnie dokonalem kilku waznych posuniec naprzod np. Vectory eigena - czyli jak zapisac 3 zmienne do jednej zachowujac max informacji - nie wiem czy pca to moze (chyba ze pca sie o to opiera hehe) w kazdym razie w takim programiku orange ktorym sie
@PhoenixPneuma: PCA to po prostu redukcja wymiaru. Czyli możesz sobie zwizualizować dane z n wymiarów na wykresie 2d lub 3d. Ten filmik to fajnie pokazjue jak to działa:
https://www.youtube.com/watch?v=9DPiXrN2pEg

Tak dopasowujesz rzutowanie, żeby wariancja była najmniejsza. Ale teraz do wizualizacji (szczególnie większych liczb wymiarów) lepiej użyć t-SNE. A co do wektorów i wartości własnych to chyba najlepiej idee tego pozwolił mi zrozumieć filmik z 3Blue1Brown:
https://www.youtube.com/watch?v=PFDu9oVAE-g

Na studiach musiałem to liczyć
@enten no ja kumam ta redukcje wymiarow ( bez matmy ofc ) ale no wiadomka trzeba to doglebnie zrozumiec zeby 3 dni nie zastanawiac sie czy to co zrobilem jest ok czy moglo byc 5 procent lepiej i 5 dni szybciej ;)
@enten ten pierwszy filmik spoko ale to faktycznie tak dziala pca czy to tylko zobrazowanie efektu dzialania ? A drugi filmik odpuszcze chyba bo gubie sie w tym EN najpierw jak skminie po PL (zamowilem ksiazke) to wtedy obejrze po EN i mi sie slownik sklei w glowie ( ja sie tak dziwnie ucze en )
@PhoenixPneuma: Praktyka jest raczej taka, że bierze się zadanie (np. rozpoznawanie obrazów), patrzy się jaki jest state of the art i się to kopiuje. Ewentualnie, a w zasadzie to prawie zawsze w komercyjnych projektach wychodzi, że jednak danych nie ma tak dużo jak w tych benchmarkowych przykładach lub są nieolabelowane lub tez są częściowo polabelowane źle, niekompletne, niezbalansowane i wtedy trzeba się dopiero głowić co tu zaradzić na te bolączki. Bo
@enten no kumam o czym mowisz to jak w programowaniu - wiekszosc rzeczy kopiujemy na ile sie da :) wlasnie ja mam takiego #!$%@? ze lubie robic cos unikalnego dlatego znalazlem sobie nie trywialny problem na ktory nie ma tutka w necie. Dla mnie pisanie prac naukowych typu - wezme algorytm, pozbieram dane, wrzuce w ltsm a nastepnie opisze jakie to zaawansowane procesy jest niewiele warte - no chyba ze nikt nie