Aktywne Wpisy

źródło: bez_tytułu
Pobierz
Orbiter01 +2
#praca Potrzebuje pracy od zaraz czy to wstyd zrobić uprawnienia na wózki widłowe w wieku 30 lat i pracować jako magazynier przez rok do czasu ukończenia szkoły policealnej o profilu elektryk?




Standardowy proces w pisaniu aplikacji, która korzysta z machine learningu, to:
1. Mamy zbiór danych treningowych/testowych i uczymy model.
2. W aplikacji korzystamy z gotowej wytrenowanej sieci, żeby przetwarzać nowe dane.
Tak widzę w tutorialach i tak w najłatwiejszych użyciach, gdzie ML jest używane w rzeczywistych systemach.
Z tym, że biznesowo proces wygląda tak (i biznes oczekuje raczej tego):
- Jest proces, który wykonują ludzie.
- Chcemy użyć ML, żeby na podstawie początkowych danych sieć się trochę nauczyła.
- Na wyuczonym modelu, żeby robiła to samo co robili ludzie. Ale w przypadkach niepewności sieci, żeby ludzie dalej robili to ręcznie (poprawiali).
- Na podstawie tego co robią ludzie (poprawki), żeby sieć się uczyła i robiła to lepiej.
Macie jakiś tutorial, przykłady, w których będzie to zastosowane, żeby dorzucać dane do uczenia w trakcie? Bo w tych standardowych, prostych tutorialch jest: wytrenuj sieć, a potem z niej korzystaj. Co z dotrenowaniem sieci? Nie chcę jakiś mega skomplikowanych rozwiązań (jestem początkującym w ML).
Czy ma to związek z "online machine learning"? A może po prostu tak jak trenuję danymi początkowymi tak można dorzucić dane i wytrenować jeszcze raz, dlatego nie ma tego w tutorialach, bo jest banalne?
Przykładowo popularne jest:
- bierzesz wytrenowaną sieć na obrazkach z ImageNet (sam nie byłbyś w stanie tak dobrze wytrenować),
- ale ona rozpoznaje ogólne kategorie obrazków (np. kot, pies, samochód), a ty chcesz jakiś konkretny rodzaj np. marki samochodów (tego w tej sieci nie ma)
- dorzucasz więc swoje obrazki (marki samochodów)
@haka65: czyli zależy od konkretnego algorytmu czy się da? Da się jakoś łatwo to rozpoznać?
Czyli jak się nie da to mogę robić tak, że zbierać dane i np. raz dziennie/tygodniowo uczyć sieć od nowa i podrzucać na produkcję nowy model. Ale widzę dwie wady:
- może to trwać długo (uczenie sieci trwa długi i im więcej
A co do GBT - nie ma to raczej sensu, bo douczanie polegałoby na dodaniu nowych drzew i miałbyś gigantyczny overfitting po jakimś czasie.
Komentarz usunięty przez autora
@haka65: chłopie co ty #!$%@? xD
Nie znasz się to się nie wypowiadaj.
@mk321: dokładnie tego szukasz, po prostu sobie zbieraj przykłady na których model zawiódł, dorzucaj je do zbioru którego używałeś do uczenia i cyklicznie trenuj. Ważne jest to żeby dołączać te błędy do oryginalnego datasetu,