Wpis z mikrobloga

Znam podstawy podstaw pythona. Chciałbym nauczyć się jak użyć tesseracta (chyba że istnieje jakaś lepsza biblioteka do OCR) do wyciągnięcia tekstu z książek w pdf głównie. W razie jeżeli ten OCR byłby kulawy (zakładam że będzie) w jaki sposób nauczyć program lepszego rozpoznawania tekstu, tabelek. Następnie zastosować jakieś techniki żeby zanalizować ten tekst. Przyznaję że jestem laikiem w programowaniu więc potrzebowałbym jakiś kompleksowy poradnik jak się do tego zabrać. Wiem że nie ogarnę tego szybko i pewnie czeka mnie dużo pracy własnej, ale potrzebuję dobrych źródeł gdzie nauczyć się takich rzeczy od podstaw, osobiście preferuję książki, ale jakieś kursy też spoko byleby były warte swojej ceny.
#programowanie #python #naukaprogramowania
  • 3
@alteron: do OCR najprosciej uzyc easyOCR, jak jestes poczatkujacy to najtrudniej bedzie ci skonfigurowac srodowisko czyli virtual env albo cos podobnego
@alteron: Pytesseract ma opcje konfiguracyjne przy odczytywaniu i to może polepszyć lub pogorszyć wyniki. EasyOCR w moich oczach jest prostszy w użyciu, no i twórcy udostępnili możliwość wytrenowania swojego modelu do detekcji liter jakby Ci się chciało bawić (aczkolwiek ja z tego nie korzystałem)