Wpis z mikrobloga

Skopiuj link

konto usunięte 23.08.2017, 09:30:05

Wrzuciłem na wykop opis jak przerabiać skany dokumentów na wersje z tekstem (OCR). Zastanawiam się czy nie przygotować maszyny z Linux do obróbki pdf, która byłaby darmową alternatywą dla Abby Finereader i ją Wam udostępnić do testów. Sam taką maszynę używam w firmie i księgowe teraz mają wszystkie skany i pliki z których sobie kopiują informacje takie jak adresy, nipy, numery kont, pozycje faktur.

Plan byłby taki - opis + film na YT
- udostępniam plik vm i opis jak sobie ją zintegrować z systemem
- pokazać jak udostępnić przydziały sieciowe gdzie miały by się znajdować PDFy
- wykonanie skryptu z znaleziska link do znaleziska
- praktyczne wykorzystanie poleceń: pdfgrep, pdftk
- modyfikacje pdf w gui np. pdfmod

ot taki gest dla społeczeństwa i przy okazji pokazanie korzyści prac społeczeństwa open source.

#linux #ocr #ubuntu #debian #wirtualizacja #komputery

cruc

23.08.2017, 09:35:43

@time0ut: ale zaraz będzie ból dupy że linugz be i daj instrukcje na łindowsa ( ͡° ͜ʖ ͡°)

t.....t

konto usunięte 23.08.2017, 09:40:39

@cruc: To nie ma znaczenia czy linugz be bo to działa na każdym systemie tak samo, kwestia pokazania jak zamontować miejsce gdzie miały by się znajdować PDFy - filmik pokazujący proces udostępnienia przydziału w Windows i zamontowaniu w Linux. Mogą być też przykładowe wpisy do fstab albo lepiej. konfiguracja smb.conf przydziału z dostępem dla wszystkich i zamontowanie jako dysk w windows :)

cruc

23.08.2017, 09:55:16

Komentarz usunięty przez autora

Kryspin013

23.08.2017, 10:32:17

@time0ut: Propsy, sam tak robiłem jak kiedyś miałem ponad 100 tekstu przepisać xD

t.....t

konto usunięte 23.08.2017, 10:34:34

@Kryspin013: Właśnie po to wrzuciłem na wykop takie zapytanie bo zastanawiam się jak sobie skale zapotrzebowania oszacować na takie rozwiązania a jest ich bardzo dużo. Może pojawią się jeszcze jakies opinie albo dodatkowe pytania

@time0ut: Tesseract?

@time0ut: Złoto wołaj proszę :)

t.....t

konto usunięte 23.08.2017, 10:49:24

@fervi: Tak, można użyć też innych OCR ale ten według mnie jest najskuteczniejszy, tym bardziej, że ma wsparcie dla języka pol

Prez

23.08.2017, 10:54:08

@time0ut: O Panie drogi ja na podstawie Twojego arta, właśnie stawiam vm na debianie pod OCR ( ͡° ͜ʖ ͡°)

t.....t

konto usunięte 23.08.2017, 10:54:58

@Rare_Soul: Można powiedzieć, że na tym właśnie zarabiam, bez kosztów dodatkowych wdrażam tego typu rozwiązania do firm :)

Prez

23.08.2017, 11:19:18

@time0ut: W artykule w nazwach pakietów masz błędy ( ͡° ͜ʖ ͡°)

sudo apt install tesseract-ocr tesseract-ocr-all imagemagick poppler-utils
zamiast

sudo apt install tessereact-ocr tessereact-ocr-all imagemagic poppler-utils

t.....t

konto usunięte 23.08.2017, 11:35:17

@Prez: Dziękuję, zaktualizowałem

Rowley

23.08.2017, 12:21:15 via Android

@time0ut sam często używam Abby, jakby ktoś mi wytłumaczył jak to usprawnić dla większej ilości stron to nawet mogę linuxa na VM odpalić xD w sumie Cam Scanner na Androida obecnie jest dla mnie szybszy niż skaner, ale tam nie da się kupić aplikacji w wersji premium z OCR, trzeba płacić cwaniakom comiesięczny abonament a to średnio mi się uśmiecha

t.....t

konto usunięte 23.08.2017, 12:33:03

@Rowley: Jest sporo zainteresowanych, przygotowuje maszynę z instrukcją jak wdrożyć i używać. Skuteczność nie jest aż tak dobra jak Abby ale jeśli jest skan dobrej jakości to praktycznie 99% jest dobrze odczytana. Wrzucę info na wykop jak przygotuję materiały

swango

23.08.2017, 12:48:45 via Android

@time0ut raz chciałem użyć tesseract do odczytania drukowanego dokumentu w świetnej jakości prosto ze skanera. Okazał się bezużyteczny, rozpoznał kilka literek i część z błędami.

t.....t

konto usunięte 23.08.2017, 12:53:01

@swango: wszystko zależy od jakości skanu, wersji tessreacta i dodaniu odpowiedniego języka. Wszystko ma wpływ na jakość OCR. Zobacz film z powiązanych jaki jest efekt aktualnej wersji. Fakt jest dobra jakość skanu

swango

23.08.2017, 12:56:04 via Android

@time0ut używałem najnowszego tesseracta skompilowanego ze źródeł, najwyższych ustawień skanera w 300/600 dpi i zainstalowałem pakiet językowy. Odczytało zaledwie 1% dokumentu. Jak masz czas to mogę ci przesłać pojedynczą stronę i zobaczysz czy też masz takie mizerne efekty.

t.....t

konto usunięte 23.08.2017, 13:16:50

@swango: poproszę, zrobię test na tym pliku. Wrzuć mi go tutaj proszę https://drive.openms.co/index.php/s/qEtUC3NzErq9TSc

swango

23.08.2017, 13:21:41

@time0ut: wrzuca się. Prawdopodobnie, gdyby w magiczny sposób usunąć wzorek z tła, efekty mogłyby być znacznie lepsze. Człowiek jest w stanie bez problemu odczytać wszystkie literki, ale tesseract nie daje rady ( ͡° ʖ̯ ͡°)

Wiele bym dał, żeby technologia poszła do przodu i komputer byłby w stanie czytać to co człowiek jest w stanie przeczytać.

t.....t

konto usunięte 23.08.2017, 13:33:00

@swango: muszę przyznać, że wrzuciłeś bardzo skomplikowany plik i nie wiem czy Abby by sobie z nim też poradził. Zrobiłem OCR 2x na pliku wynikowym. Za pierwszym razem skrypt usunął tło i OCR było słabe ale za drugim razem wynik OCR jest lepszy. Tutaj trzeba by było taki plik indywidualnie potraktować pakietem "upaper". Wyniki do pobrania pod linkiem

Aktywne Wpisy

Linnior88

Linnior88 +9

4 godz. i 35 min temu

Jak sobie radzić z popędem będąc stara samotna baba przed 30 (╥﹏╥)

Ksiega_dusz

Ksiega_dusz +54

2 godz. i 31 min temu

Mam w pracy analityczkę na stanowisku „Analityk Systemowy”. Oczywiście przebranżowiona w czasach ssania i gdzie brano do IT każdego kto miał puls i umiał powiedzieć słowo „JSON”. Jest po „europeistyce”. Była też na Erasmus, podczas gdy ja waliłem konia z depresji (żadna mnie nie chciała) i uczyłem się po nocach na kolokwium z języka C.

Zarabia coś koło 14-15k brutto na UoP, stażu ma 5 lat. Zarabia niewiele mniej ode mnie, bo ja mam 19k brutto na UoP jako programista Java z 7 latami expa.

Do czego pije? Przeglądałem ofertę pracy w mojej firmie na Analityka Systemowego i w wymaganiach jest jasno napisane że umiejętność SQL’a, znajomość REST API, umiejętność modelowania BPMN czy UML. Wspomaganie procesu wytwarzania oprogramowania.

Pracuje

Aktywne Wpisy

Aktywne Znaleziska

Niemcy utrzymają kontrole na granicy z Polską

Franciszek Smuda w stanie krytycznym

Afera w armii UK: Kapitan nuklearnego okrętu podwodnego nagrał gejowskie porno

"Na wasze emerytury będą składki płaciły wasze dzieci, których nie zrobiliście"

96 śmigłowców Apache dla polskiej armii. Zastąpią poradzieckie Mi

Popularne tagi