Wpis z mikrobloga

Wrzuciłem na wykop opis jak przerabiać skany dokumentów na wersje z tekstem (OCR). Zastanawiam się czy nie przygotować maszyny z Linux do obróbki pdf, która byłaby darmową alternatywą dla Abby Finereader i ją Wam udostępnić do testów. Sam taką maszynę używam w firmie i księgowe teraz mają wszystkie skany i pliki z których sobie kopiują informacje takie jak adresy, nipy, numery kont, pozycje faktur.

Plan byłby taki - opis + film na YT
- udostępniam plik vm i opis jak sobie ją zintegrować z systemem
- pokazać jak udostępnić przydziały sieciowe gdzie miały by się znajdować PDFy
- wykonanie skryptu z znaleziska link do znaleziska
- praktyczne wykorzystanie poleceń: pdfgrep, pdftk
- modyfikacje pdf w gui np. pdfmod

ot taki gest dla społeczeństwa i przy okazji pokazanie korzyści prac społeczeństwa open source.

#linux #ocr #ubuntu #debian #wirtualizacja #komputery
  • 30
@cruc: To nie ma znaczenia czy linugz be bo to działa na każdym systemie tak samo, kwestia pokazania jak zamontować miejsce gdzie miały by się znajdować PDFy - filmik pokazujący proces udostępnienia przydziału w Windows i zamontowaniu w Linux. Mogą być też przykładowe wpisy do fstab albo lepiej. konfiguracja smb.conf przydziału z dostępem dla wszystkich i zamontowanie jako dysk w windows :)
@Kryspin013: Właśnie po to wrzuciłem na wykop takie zapytanie bo zastanawiam się jak sobie skale zapotrzebowania oszacować na takie rozwiązania a jest ich bardzo dużo. Może pojawią się jeszcze jakies opinie albo dodatkowe pytania
@time0ut: W artykule w nazwach pakietów masz błędy ( ͡° ͜ʖ ͡°)

sudo apt install tesseract-ocr tesseract-ocr-all imagemagick poppler-utils
zamiast

sudo apt install tessereact-ocr tessereact-ocr-all imagemagic poppler-utils
@time0ut sam często używam Abby, jakby ktoś mi wytłumaczył jak to usprawnić dla większej ilości stron to nawet mogę linuxa na VM odpalić xD w sumie Cam Scanner na Androida obecnie jest dla mnie szybszy niż skaner, ale tam nie da się kupić aplikacji w wersji premium z OCR, trzeba płacić cwaniakom comiesięczny abonament a to średnio mi się uśmiecha
@Rowley: Jest sporo zainteresowanych, przygotowuje maszynę z instrukcją jak wdrożyć i używać. Skuteczność nie jest aż tak dobra jak Abby ale jeśli jest skan dobrej jakości to praktycznie 99% jest dobrze odczytana. Wrzucę info na wykop jak przygotuję materiały
@time0ut raz chciałem użyć tesseract do odczytania drukowanego dokumentu w świetnej jakości prosto ze skanera. Okazał się bezużyteczny, rozpoznał kilka literek i część z błędami.
@swango: wszystko zależy od jakości skanu, wersji tessreacta i dodaniu odpowiedniego języka. Wszystko ma wpływ na jakość OCR. Zobacz film z powiązanych jaki jest efekt aktualnej wersji. Fakt jest dobra jakość skanu
@time0ut używałem najnowszego tesseracta skompilowanego ze źródeł, najwyższych ustawień skanera w 300/600 dpi i zainstalowałem pakiet językowy. Odczytało zaledwie 1% dokumentu. Jak masz czas to mogę ci przesłać pojedynczą stronę i zobaczysz czy też masz takie mizerne efekty.
@time0ut: wrzuca się. Prawdopodobnie, gdyby w magiczny sposób usunąć wzorek z tła, efekty mogłyby być znacznie lepsze. Człowiek jest w stanie bez problemu odczytać wszystkie literki, ale tesseract nie daje rady ( ͡° ʖ̯ ͡°)

Wiele bym dał, żeby technologia poszła do przodu i komputer byłby w stanie czytać to co człowiek jest w stanie przeczytać.
@swango: muszę przyznać, że wrzuciłeś bardzo skomplikowany plik i nie wiem czy Abby by sobie z nim też poradził. Zrobiłem OCR 2x na pliku wynikowym. Za pierwszym razem skrypt usunął tło i OCR było słabe ale za drugim razem wynik OCR jest lepszy. Tutaj trzeba by było taki plik indywidualnie potraktować pakietem "upaper". Wyniki do pobrania pod linkiem