Wpis z mikrobloga

#python #deeplearning #machinelearning

Hejka, bawie sie w maly projekcik z rozpoznawaniem tablic rejestracyjnych. Z powodzeniem skonfigurowalem sobie rozpoznawanie obiektow przy pomocy YOLO11 i ogolnodostepnego datasetu z roboflow. Planowalem wykorzystac EasyOCR do rozpoznawania znakow ale pomimo zabawy w OpenCV (greyscale, binaryzacja, zabawy thresholdami) caly czas dostaje nieprawidlowe wyniki -> I na L, 6 na G, czcionka naszych rejestracji nie jest najprzyjazniejsza do rozpoznawania. Przygotowalem customowy model do EasyOCR na bazie TPS-ResNet-BiLSTM-Attn, zaplikowalem do EasyOCR ale wyniki nie sa dobre :). Nie wiem czy dataset jaki przygotowalem (19 olabelowanych sampli, moze zbyt niska rozdzielczosc) czy overfitting (iter=3000), po prostu nie wiem w ktora strone to diagnozowac.

Moze jest ktos kto juz tu byl i moglby mnie pokierowac, czy szukac innego OCR, np Keras-OCR czy zwiekszyc dataset i zmniejszy ilosc epoch.

Z gory dzieki za pomoc.
  • 4
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@hoszak: Może być kilka problemów. Pierwszy to sama pozycja wyciętej tablicy, może jest po takim kątem, że literki się mylą, druga sprawa to sama pozycja bboxa może być za mały do rozpoznawania. Dalej binaryzacje, greyscale mogą nie mieć wpływy jeśli twoje zdjęcia - mają słaby bitrate - mają dużą kompresje - wtedy literki też będą się mylić - wytnij sobie ten kawałek tablicy i sprawdź czy jesteś w stanie rozpoznać.
  • Odpowiedz
  • 0
@mrocznapszczola: @rusin Dzieki za odpowiedzi, zdziwilo mnie to ze EasyOCR nie byl w stanie poprawnie rozpoznac ramek z rejestracjami na ktorych byl trenowany i na ktorych mial 100% skutecznosc przy trenningu.

Sprobuje rozszerzyc dataset z semplami i zabezpieczyc process przed overfittingem bo widze ze tez mocno model przytyl bez znaczacych wzrostow dokladnosci.
  • Odpowiedz
  • 0
@mrocznapszczola: jeszcze odnosnie RoboFlow, z samego procesu rozpoznawania ramki z rejestracja jestem zadowolony, dziala bez zarzutu. Problemem jest wylacznie OCR. To jest projekt hobbystyczny, byc moze skonczy jako API do zglaszania nieprawidlowo zaparkowanych pojazdow. To jest jedynie jeden z elementow procesu takiego zgloszenia.

Zrobie nowy dataset pokrywajacy znaczacy procent znakow wystepujacych w rejestracjach. Poszukam jeszcze czy nie ma na rynku open source jakiegos OCR ktore mozna uczyc na podstawie czcionek,
  • Odpowiedz