Wpis z mikrobloga

Skopiuj link

15.02.2022, 11:34:01

Jakieś dwa lata temu chwaliłem się stworzeniem strony archiwizującej opóźnienia pociągów PKP i generującej proste prognozy opóźnienia na kolejny dzień.

Dziś chwalę się drugi raz, bo zaktualizowałem serwis do wersji 2.0 (na razie w wersji beta). Wersja ta zawiera dużo nowych funkcjonalności, całkowicie nowy UI oraz stworzony od podstaw model machine learning prognozujący opóźnienia pociągów na podstawie szeregu czynników, w tym opóźnień z poprzednich dni, różnych cech pociągu oraz danych pogodowych. Co więcej, model podaje również listę najważniejszych czynników na podstawie których wygenerował daną prognozę (starałem się, aby model był "interpretowalny").

W skrócie, na stronie "Czy pociąg się spóźni?" sprawdzicie:
- historyczne opóźnienia zdecydowanej większości (jeśli nie wszystkich) pociągów krajowych (do 30 dni wstecz)
- aktualne opóźnienia - poglądowo (opóźnione ok. 10-50 min w stosunku do Infopasażera)
- prognozowane opóźnienia - na kolejny kurs pociągu

Serdecznie zapraszam do wypróbowania na https://www.czypociagsiespozni.pl i podzielenie się feedbackiem!

#pkp #pociagi #pociag #chwalesie #sztucznainteligencja #machinelearning #programowanie

grad

16.02.2022, 08:56:14

@FaterAnona: Miałem do wyboru w sumie dwie opcje: zbilansowanie zbioru albo przekazanie informacji o niezbliansowaniu do algorytmu uczącego. Wybrałem tą drugą opcję. Zbilansowanie zbioru mogłem zrobić albo przez oversampling albo undersampling. Undersampling wiązał by się z dużą stratą informacji. Oversampling z kolei, obawiałem się, że może prowadzić do overfittingu oraz będzie wymagał większych zasobów obliczeniowych (a miałem już i tak stosunkowo duży zbiór danych).

FaterAnona

16.02.2022, 09:12:29

@grad: spoko, fajne podejście, nie słyszałem o tym. musiałeś sam napisać tą metrykę czy jest w biblio?

JaszczompPolownik

16.02.2022, 10:25:01

@grad: I ja to szanuje. Od razu lepiej (⌐ ͡■ ͜ʖ ͡■)

grad

grad

16.02.2022, 10:53:01

@FaterAnona: Jeśli chodzi o same metryki to korzystałem z gotowej implementacji w scikit-learn (np. https://scikit-learn.org/stable/modules/generated/sklearn.metrics.balanced_accuracy_score.html). Natomiast to wykorzystywałem głównie do porównywania modeli. Jeśli chodzi o sam proces uczenia, to w RandomForestClassifier można dostarczyć m.in. parametr class_weight, który bezpośrednio przekazuje taką informację. W XGBoost jest to trochę trudniejsze bo taki parametr nie jest zaimplementowany, ale informację o wagach klas można przekazać bezpośrednio do każdej z instancji wchodzącej do zbioru treningowego (tutaj przykładowe

FaterAnona

grad

16.02.2022, 11:03:07

@optymistycznypesymista @Solitary_Man: chcielibyście sprawdzić w wolnym czasie czy cały czas macie ten freeze? Wdrożyłem poprawkę, która przynajmniej zadziałała na Brave na Redmi Note 9 Pro i mam cichą nadzieję, że zadziała też na Waszych urządzeniach

optymistycznypesymista

16.02.2022, 11:42:03

@grad: freez jest trochę krótszy, ale dalej jest niemiłosierny. Teraz zauważyłem, że w opcji ze stacjami jest prawie tak samo (tutaj po przełączeniu na tą opcję zdążę zrobić kawałeczek scrolla zanim się zfreezuje).

grad

16.02.2022, 11:50:22

@optymistycznypesymista: ok, będę szukał dalej. Bo rozumiem, że chodzi o wyszukiwarkę na stronie głównej i freez się robi jak klikniesz np. kartę „według stacji przyjazdu”? Jeśli tak to czy freez jest na samym kliknięciu, czy dopiero jak zaczynasz coś pisać? Jeśli się nie przełączasz pomiędzy tymi opcjami i zostaje defaultowe „według trasy” to czy wszystko działa ok i można wyszukać pociąg?

optymistycznypesymista

16.02.2022, 12:32:51

@grad: Tak, dokładnie. Na stronie głównej jak są te 3 opcje to wersja gdzie podajesz przystanek początkowy i końcowy jest ok.
W przypadku pozostałych dwóch wygląda to mniej więcej tak:
klikam na opcję,
opcja się podświetla,
może nawet zdążę odrobinę przescrollować stronę w dół,
freeze.
Po dłuższym czasie coś tam się odfreezuje i nieraz znowu złapie freeze, a nieraz nie. Bez wpisywania / wybierania tam opcji.
Obstawiam, że coś się może

Solitary_Man

16.02.2022, 12:37:01 via Android

@grad zawiesza mi przeglądarkę. Nagrałem film

grad

16.02.2022, 12:42:47

@Solitary_Man: @optymistycznypesymista: Dzięki wielkie za info! Mam w takim razie materiał do pracy i postaram się rozwiązać ten problem. Pewnie to wina selecta, ale raczej co dokładnie ciężko powiedzieć. Dane do selecta są dodawane do wszystkich selectów już na starcie strony, więc zmiana zakładki nie powinna tutaj dużo zmienić. Sprawdzę i naprawię!

Solitary_Man

16.02.2022, 12:44:03 via Android

@grad ^^ mi to w sumie nie jest potrzebę bo u mnie pociągów nie ma ale mogę takie testy robić :P ps wersja chrome

Solitary_Man - @grad ^^ mi to w sumie nie jest potrzebę bo u mnie pociągów nie ma ale... — **źródło:** comment_1645015443OT5u3KQ3pCBrjbZKa6KpWB.jpg
Pobierz

grad

DudziN123

16.02.2022, 16:23:14

@grad: Co w przypadku kiedy PLK wprowadzi korektę i np pociąg 5130 jeździ na trasie Bydgoszcz - Toruń - Kutno - Warszawa a po zmianie będzie jeździł trasę Gdynia - Tczew - Iława - Warszawa? Numer zostanie ten sam trasa zmieniona i zebrane dane będą nic nie warte :(

grad

16.02.2022, 16:27:47

@DudziN123: W takiej sytuacji będzie trzeba poczekać kilka dni, aż pociąg „zbierze” potrzebne dane do prognozy. A w kolejnej wersji modelu nawet tyle nie będzie trzeba, bo opóźnienie będzie prognozowane też na podstawie opóźnień na danych odcinkach sieci kolejowej

DudziN123

16.02.2022, 16:29:53

@grad: A to propsuje dobrze wiedzieć :)

grad

danniell

16.02.2022, 19:27:47 via Android

@grad uuu panie, bo juz byla afera jak ktos zrobil lepsza aplikacje niz Portal Pasazera PLKi i podobno naruszyl prawa autorskie. ztcp nazywala sie Moj Pociag

cohontes

16.02.2022, 20:11:28

@grad dopytam jeszcze, model spakowany w .pkl czy inny pickle? Jeśli tak to z ciekawości, jaka waga.

grad

16.02.2022, 21:07:47

@danniell: znam akurat tą historię, ale to trochę inny temat. Tamta aplikacja "konkurowała" z wyszukiwarką rozkładu jazdy, a moja propozycja to uzupełnienie systemu Infopasażer, ale w żaden sposób nie konkurencja. Tam gdzie wiem, że dane z Infopasażera mogą być bardziej właściwe, to informuję o tym użytkownika i podaję możliwie dokładny link do odpowiedniej stronie na Infopasażerze.

grad

16.02.2022, 21:10:23

@cohontes: Finalnie zapisany biblioteką joblib. Cały pipeline mam utworzony w AWS Sagemaker i rozważałem utrzymanie punktu końcowego po stronie AWS, ale zdecydowały koszty i moje wymagania co do szybkości predykcji. Waga modelu to około 2-3 MB o ile dobrze pamiętam, a czas predykcji wraz z przygotowaniem niezbędnych danych wejściowych nie przekracza w 95% przypadków 200 ms.

cohontes

16.02.2022, 21:57:34

@grad: 2-3mb, woah to super. Muszę też sprawdzić xgboosta, przy RF często wychodziło coś po 2-3gb u mnie.