Wpis z mikrobloga

Wrzuciłem na wykop opis jak przerabiać skany dokumentów na wersje z tekstem (OCR). Zastanawiam się czy nie przygotować maszyny z Linux do obróbki pdf, która byłaby darmową alternatywą dla Abby Finereader i ją Wam udostępnić do testów. Sam taką maszynę używam w firmie i księgowe teraz mają wszystkie skany i pliki z których sobie kopiują informacje takie jak adresy, nipy, numery kont, pozycje faktur.

Plan byłby taki - opis + film na YT
- udostępniam plik vm i opis jak sobie ją zintegrować z systemem
- pokazać jak udostępnić przydziały sieciowe gdzie miały by się znajdować PDFy
- wykonanie skryptu z znaleziska link do znaleziska
- praktyczne wykorzystanie poleceń: pdfgrep, pdftk
- modyfikacje pdf w gui np. pdfmod

ot taki gest dla społeczeństwa i przy okazji pokazanie korzyści prac społeczeństwa open source.

#linux #ocr #ubuntu #debian #wirtualizacja #komputery
  • 30
  • Odpowiedz
@wodzik: Firmy wtedy zastanawiają się nad bezpieczeństwem danych. Samo wysłanie danych na zewnętrzny serwer jest niebezpieczne i powoduje wątpliwości. Mając za darmo bez limitów na każdą metę się bardziej opłaci :)
  • Odpowiedz
@wodzik: w gruncie rzeczy to moje rozwiązanie to właśnie taki SAAS, wrzucasz pliki PDF do folderu i odbierasz przetworzone, niczym się to nie różni bo wystarczy dopisać jakiś skrypt PHP, doinstalować apache i jest dokładnie to samo :)
  • Odpowiedz
@steam_fisher121: Jasne! tylko temat mnie tak pochłonął, że ją bardzo rozbudowałem i planuje przygotować stronę z opisem i podpowiedziami jak sobie radzić z plikami z dużą ilością grafiki i ustaleniem orientacji dokumentów. Tym bardziej, że różnica pomiędzy tesseract 3.04 a 4.00 jest bardzo duża różnica. W przyszłym tygodniu opublikuje wynik na stronie i zrobię znalezisko.
  • Odpowiedz