Hej! W #machinelearning, #datascience i #artificialintelligence przyjmujemy w ciemno, że im więcej danych - tym lepiej. Z moich własnych obserwacji okazuje się jednak, że nie zawsze jest tak super :) Napisałem krótki artykulik, w którym zabieram się za ten problem od strony identyfikacji najbardziej przydatnych kolumn w ramce danych. Myślę, że komuś może się to przydać ;)
@Iesuz: Takie uproszczenie ;). Nawinie kalkulując: skoro z mniej niż ~50 obserwacjami nic nie zdziałamy, a deep learning startuje dopiero przy więcej niż ~1k obserwacjach, to prosta ekstrapolacja pokazuje, że im więcej tym lepiej :D. Na a że nie widziałem żeby ktoś trafił na górną granicę ... ( ͡°͜ʖ͡°)
@Avitus: ale koduj zgodnie z jedną przyjętą konwencją, trzymając się angielskiego nazewnictwa zmiennych. Teraz masz mieszankę angielsko-polską. Fatalnie to wygląda, jeszcze gorzej się to czyta. Do sedna problemu się nie odnoszę, bo dopiero łapię podstawy ML/DL.
@takiego: W sumie racja, czasem się na tym przyłapię i poprawię... a czasem mi to umyka. Faktycznie jest to zła praktyka. Przycisnę to w przyszłości :)
W #machinelearning, #datascience i #artificialintelligence przyjmujemy w ciemno, że im więcej danych - tym lepiej. Z moich własnych obserwacji okazuje się jednak, że nie zawsze jest tak super :)
Napisałem krótki artykulik, w którym zabieram się za ten problem od strony identyfikacji najbardziej przydatnych kolumn w ramce danych.
Myślę, że komuś może się to przydać ;)
@Avitus: co, nie