Wpis z mikrobloga

Cześć, mam przypadek w pracy, że opracowaliśmy model importu/exportu danych pewnego dobra (poprzez transport morski). Dane historyczne vs model fitują na zasadzie, że jak obierzesz pewien scaling factor (nasze dane pomnożyć przez 0.95) to praktycznie się nakłada model i historia. Mniej więcej obrazuje na obrazku o co mi chodzi. Powiedzmy, że model ma 3 lata danych, dla każdego roku inny ten factor wychodzi. Jest jakaś metoda w data science/ekonometrii, która pomoże to dynamicznie wyliczać? Bo teraz powiedzmy, że jest git a za rok się może zmienić a my sobie te factory zhardodujemy przy końcowym outpucie i później się to może rozjechać. Być może chodzi o to, że w modelu mamy pojemność statków (jego capacity) i zakładamy, że statek zawsze przewozi maks ładunek a to nie jest pewnie prawdą, ale niestety nie mamy danych ile dokładnie każdy statek przewozi. Może po prostu pewna część floty jest np załadowana do 95% pojemności, inna do 80% i tak dalej. Ale jest tego tak dużo, że robić teraz mikro analizy jest słabo. Są jakieś sposoby na takie "końcowe" dopasowanie? Takie optymalne wyliczenie tego scaling factor? EDIT: Dodam też, że korelacja między modelem a historią to jakoś 0.93, ale zależy nam na jak najlepszym odwzorowaniu historii i układaniu modelu dalej bo dane "realne" mają lag w raportowaniu i to jest cel, chcemy to maksymalnie dobrze odwzorować bo uda się nam wiedzieć o tym zjawisku szybciej.
#datascience #analizadanych #ekonometria
kkrzysiek13 - Cześć, mam przypadek w pracy, że opracowaliśmy model importu/exportu da...

źródło: comment_1669928425mRJpVULegT6zubycQMiN7G.jpg

Pobierz
  • 3
@kkrzysiek13: Trudno odpowiedzieć bez większej ilości szczegółów. Czy mógłbyś dokładniej opisać problem?
Co to za model, regresja? To jest forecast na przyszłe lata? Jaka jest zmienna objaśniana? Jaki jest jej typ (ciągła, binarna)? Co to znaczy, że model 'ma trzy lata danych"? Że model był budowany na danych z trzech lat, czy backtesting był na trzech latach? Itd. Korelacja nie nadaje się do testowania modelu lepsze będzie Gini albo KS. Z
@miszczu90: @Miszka_Fisznan: To nie jest model statystyczny. To jest cały framework oparty na ruchu statków i portach całego świata. Udało nam się kiedyś już zrobić analogiczny dla rud żelaza. I tam było tak samo, był scaling factor i time series nasze i branży (są wyspecjalizowane agencje, które takie coś raportują lub firmy) praktycznie się nakładał. To jest przewaga w mojej firmie, ze analizujemy to live a raporty branży wychodzą kwartalnie.