Wpis z mikrobloga

Uczę się ostatnio #machinelearning i nie mogę znaleźć odpowiedzi na jedno pytanie.

Otóż, w jaki sposób zarządza się danymi z różnych sensorów/źródeł, gdzie dane mają różny wymiar? Chodzi mi szczególnie o składowanie w bazie.
Np. gdybym chciał analizować ruch człowieka przy pomocy kamer i czujników zamontowanych na ciele, to jak zapisać te dane, aby łatwo można było je wczytać w kodzie i analizować? A jakby się jeszcze dodało dodać do tego tekst, który opisuje parametry przy jakich zebrane były próbki, to w ogóle było super.
Szukam w google czegoś takiego, ale nic nie mogę znaleźć. Jak ludzie sobie więc z tym radzą?

Powinno być coś takiego, bo to musi być częsty problem dla osób zarządzających dużymi bazami.

#programowanie #bazydanych #ai #python
  • 12
@Ardeo: no specyficzne przypadki wymagają specyficznych rozwiązań.

Jeżeli jesteś zaawansowany odpowiednio, to najlepiej zacząć od napisania symulatora, który byłby w stanie ci wygenerować wszystkie dane wraz z odwzorowaniem ich rozmieszczenia przestrzennego np. na szkielecie, wraz z możliwością ich powtarzalnego zanimowania (albo na jakimś silniku fizyki, nawet tych używanych w grach komputerowych, albo znowu samemu), aby potem je móc zserializować (zapisać do pliku) i zdeserializować (odczytać z pliku).

Analiza całego ruchu ciała
Jeżeli jesteś zaawansowany odpowiednio, to najlepiej zacząć od napisania symulatora, który byłby w stanie ci wygenerować wszystkie dane wraz z odwzorowaniem ich rozmieszczenia przestrzennego np. na szkielecie, wraz z możliwością ich powtarzalnego zanimowania (albo na jakimś silniku fizyki, nawet tych używanych w grach komputerowych, albo znowu samemu), aby potem je móc zserializować (zapisać do pliku) i zdeserializować (odczytać z pliku).


@patrolez: Czyli coś w stylu kodera i dekodera? Wydaje mi się
@Ardeo: no to nie zrozumiałem jednoznacznie z komunikatu, jak mocno chcesz analizować ruch, że w sensie, typu binarnie "jest, nie ma", czy chcesz np. osobno binarnie z dokładnością do rozróżniania kończyn, czy może jednak chcesz wprowadzić już ocenienie "poziomu" wychylenia się kończyn w czasie.

Jeżeli chodzi o potencjalne labelowanie filmików, to moja pierwsza myśl, to skorzystać z istniejących formatów do tworzenia tekstów do filmów, np.:
https://pl.wikipedia.org/wiki/SRT

A jeżeli o sam rodzaj
@patrolez: a tak jeszcze dopytam, czy to co napisałem pod koniec, czyli "można zrobić kolejny plik csv z trzema kolumnami i tam powpisywać identyfikatory powyższych plików, aby zachować informacje o powiązaniach", a pliki video i dane z sensorów trzymałbym po prostu w osobnych folderach. Nie jest przypadkiem najprostszym rozwiązaniem mojego problemu?

Z jakiegoś powodu wydawało mi się, że to nie będzie dobre rozwiązanie, ale teraz nie mogę znaleźć kontr argumentów. Plik
@Ardeo: ogólnie to jak masz dane z innch źródeł i czujników to najlepiej jest to wszystko połączyć w jeden plik, po czasie, patrząć czy eventy się zgadzają na początku, środku i końcu. jak masz wszystko w jednej bazie to możesz później robić ML.
Najgorsza zabawa zawsze jest z czyszczeniem i łączeniem danych żeby to miało później sens dla ML algorythms.
@Ardeo: to ja w sumie w doktoracie podobnymi rzeczami się zajmuje.
U mnie wygląda to tak że mam 100 uczestników eksperymentu, dla każdego jest 20 przejsc chodu w których jest X próbek chodu. Łączenie w jeden plik to fantastyka naukowa, bo po co łączyć dane ktore ani nie będę czytelne w formie Csv ani dla jakiego media playera. Zrób dogodna dla Ciebie strukturę a na koniec wygeneruje plik CSV który to
@Bob13: dokładnie tak zamierzam zrobić. Jest sobie baza z danymi, a ja tylko dorabiam plik csv, który tworzy relację pomiędzy poszczególnymi plikami i metadanymi.

Zaskoczyło mnie tylko, że takie rozwiązanie okazuje się najlepsze oraz że trzeba je sobie zrobić samemu. Myślę, że w świecie ML mogłoby się pojawić jakieś ustandaryzowane, open-source narzędzie do tego, że jest tutaj mała luka do uzupełnienia, ale może to właśnie tylko kwestia czasu?