Wpis z mikrobloga

Hej mirki. Jako że jestem newbie w #machinelearning każda wskazówka się przyda.

Staram się posortować bardzo dużą liczbę koncertów po ich estymowanych wpływach biletowych. Pojedynczy wektor danych zawiera podstawowo:

- ID koncertu,
- ID obiektu / lokalizacji
- ID artysty-wykonawcy

Poza tym dla niewielkiej części wektorów mogę przypisać zmienną, której szukam, czyli realne wpływy koncertowe. Jakieś pomysły?

Wiem, że jest to do zrobienia, bo w godzinę "na kolanie" (tj. w excelu...), stosując bardzo proste algorytmy iteracyjne i informacje o wielkości obiektu koncertowego (maksymalna widownia - z Wikipedii), udało mi się całkiem ładnie te dane posortować. Myślę, że stosując bardziej eleganckie i zaawansowane narzędzia, wyniki mogą być naprawdę niezłe.

Jakieś pomysły?

#analizadanych #bigdata #datascience #datamining
  • 4
Dane o wpływach biletowych dla części koncertów już mam (ok 3 tys. z ostatnich paru lat) i jestem w trakcie matchowania ich z kluczem głównym wydarzenia. Teraz staram się oszacować wpływy tych, do których danych nie mam.

Co do wektora danych - mam więcej niż te trzy wymienione (choćby współrzędne geograficzne czy data koncertu), ale raczej nie są skorelowane z wpływami biletowymi. Te trzy jak wielkość obiektu i wykonawca rzecz jasna są
@neko90: python, scikit learn i pobaw się algorytmami. Koncerty dla których masz wpływy dzielisz na dwie grupy, training i test, najlepiej funkcją traintestsplit, w proporcjach na przykład 80:20. Samo korzystanie z modeli jest bardzo proste, do tego jeszcze pod większością z nich są przykłady. Możesz zacząć na przykład od SVR.

EDIT: kurna, link się zepsuł ( ͡° ʖ̯ ͡°)

A w ogóle to miras, podziel