@#!$%@?: kilka lat temu jako student dorwałem prace przy sprzątaniu świeżo wyhodowanego hotelu ze SPA w Czechach. Kierownik bardzo chwalił się czujką ruchu w kiblu i że to takie inteligentne. Wszedłem z nim w polemikę na ten temat i poprosiłem żeby wyobraził sobie sytuację, gdzie ktoś sra dłużej jak minutę, gaśnie mu światło i musi zacząć tańczyć na kiblu... Rozwiązaniem jest np. zastosowanie blokady wyłączenia światła poprzez mikrokontroler po zamknięciu drzwi od
  • Odpowiedz
Dziś ruszył drugi sezon ligi AWS DeepRacer. To taki samochodzik z kamerkami i skanerem LIDAR, który trenuje się używając reinforcement learning. Całość została przygotowana tak, aby ułatwić rozpoczęcie nauki uczenia maszynowego.

Wpis o nowym sezonie od społeczności (po angielsku): https://blog.deepracing.io/2020/03/03/aws-deepracer-league-and-console-update/

W skrócie po polsku:
- ruszyła liga wirtualna, wkrótce ruszy fizyczna
tptak - Dziś ruszył drugi sezon ligi AWS DeepRacer. To taki samochodzik z kamerkami i...

źródło: comment_1583264674iutEn1IMz0LhF8014ROxNQ.jpg

Pobierz
@vossinho2: tak, ponosi. Wygląda to średnio ( ͡° ͜ʖ ͡°)

W zeszłym roku dla oszczędności był lokalny trening, w tym jednak dochodzą warstwy i robi się ciężko na domowy trening. Jeszcze badamy możliwości i potrzeby.
  • Odpowiedz
@specjalista_wysokiej_klasy: wszystko się da, tylko z Londynu trudno :) ale z kolegą robimy eventy z autkiem, jeśli znalszłyby się firmy co chcą kilka całodziennych wydarzeń dla pracowników, byłaby motywacja żeby wziąć wolne i zjechać z całym sprzętem. A wtedy to już kwestia lokum żeby zrobić meetup dla lokalnej społeczności.
  • Odpowiedz
Cześć, miał ktoś z was do czynienia z systemami typu actor-critic.
Problem wygląda tak. Muszę wykonać bota do gry na giełdzie. Oczywiście całość będzie odbywać się w symulowanym środowisku a dane będę ciągnąć z jakiegoś ogólnodostępnego api.
Agent będzie dokonywał operacji kupna sprzedaży w symulatorze i uczył się na podstawie strat/zysków w ramach sesji uczącej.
No i na początku padło na zastosowanie uczenia poprzez użycie metody bazującej na NEAT - coś się działo, ale ogólnie porażka. Po grubszym googlowaniu okazało się że nie ma szans aby to pykło, szczególnie że chciałem docelowo żeby na wejściu sieć odstawała tylko informacje z aktualnego ticku a dane historyczne ma rozwiązać coś typu LSTM.
Obecnie waham się między rozwiązaniem typu Q-learning/ i metoda wymieniona w tytule.
W przypadku 1 opcji niestety możliwe akcje będą tylko typu KUP/SPRZEDAJ/NICNIERÓB a szczegóły jak ma być wykonana dana akcja (ilość jednostek) będą musiały być za hard-kodowane
@Fotoblysk: Wybacz stary, ale to co piszesz się za bardzo kupy nie trzyma. Masz jakieś podstawy wiedzy z Reinforcement Learning?

Zacznij od określenia trzech podstawowych pojęć: State, Actions, Reward.
State - czyli informacje, które Twój model będzie otrzymywał
Actions - możliwe akcje, którym Twój model ma przyporządkować wartości
Reward - nagroda, którą wybrana
  • Odpowiedz