Wpis z mikrobloga

Skopiuj link

24.01.2022, 18:09:56

Znam podstawy podstaw pythona. Chciałbym nauczyć się jak użyć tesseracta (chyba że istnieje jakaś lepsza biblioteka do OCR) do wyciągnięcia tekstu z książek w pdf głównie. W razie jeżeli ten OCR byłby kulawy (zakładam że będzie) w jaki sposób nauczyć program lepszego rozpoznawania tekstu, tabelek. Następnie zastosować jakieś techniki żeby zanalizować ten tekst. Przyznaję że jestem laikiem w programowaniu więc potrzebowałbym jakiś kompleksowy poradnik jak się do tego zabrać. Wiem że nie ogarnę tego szybko i pewnie czeka mnie dużo pracy własnej, ale potrzebuję dobrych źródeł gdzie nauczyć się takich rzeczy od podstaw, osobiście preferuję książki, ale jakieś kursy też spoko byleby były warte swojej ceny.
#programowanie #python #naukaprogramowania

Pmpa

24.01.2022, 18:15:20

@alteron: do OCR najprosciej uzyc easyOCR, jak jestes poczatkujacy to najtrudniej bedzie ci skonfigurowac srodowisko czyli virtual env albo cos podobnego

Xirate

25.01.2022, 09:59:39

@alteron: Python. Rusz głową! (to tytuł, a nie jakiś krindżuwa tekst motywujący)

Bocislaw

25.01.2022, 23:23:54

@alteron: Pytesseract ma opcje konfiguracyjne przy odczytywaniu i to może polepszyć lub pogorszyć wyniki. EasyOCR w moich oczach jest prostszy w użyciu, no i twórcy udostępnili możliwość wytrenowania swojego modelu do detekcji liter jakby Ci się chciało bawić (aczkolwiek ja z tego nie korzystałem)

Aktywne Wpisy

Djuk94

Djuk94 +129

6 godz. i 13 min temu

Dlaczego ostatnio tak wszyscy eksperci nawołują, że będzie wojna, podczas gdy Rosja ma jak na razie problem z zajmowaniem miast na Ukrainie? Widzę, że ten sam spektakl, co z ekspertami od AI, którzy rok temu nawoływali, że za pół roku, a może nawet w ciągu paru miesięcy czeka nas wielki przełom, świat nie do poznania! I ugasło. Nie sądzę, że wojna z Rosją nam grozi w tym dziesięcioleciu po tym, co pokazują