Wpis z mikrobloga

Skopiuj link

21.10.2014, 23:14:43

Mireczki wiecie może jak wypakować tekst z PDFa, który nie posiada informacji o czcionkach(CMAP) - prawdopodobnie zostało to usunięte z pliku, dla oszczędności pamięci. PDFa można normalnie odczytywać np. w Adobe Reader, natomiast problem pojawia się właśnie przy wypakowywaniu tekst przy użyciu GhostScriptu, pdf2txt czy pdf2ps - nie można tego rozkodować i out wyglada mniej więcej tak:

(cid:51)(cid:58)(cid:3)(cid:44)(cid:57)(cid:3)(cid:16)

(cid:36)(cid:71)(cid:80)(cid:76)(cid:81)(cid:17)

(cid:86)(cid:76)(cid:72)(cid:70)(cid:17)

(cid:86)(cid:92)(cid:86)(cid:87)(cid:17)

i pojawiają się takiego błędy:

Can't find CMap Identity-UTF16-H building a CIDDecoding resource. 

Can't find CID font "ArialBlack".

Syntax Error: Couldn't find a font to substitute for 'Arial' ('Adobe-Identity' character collection)

 Syntax Error: Couldn't find a font to substitute for 'Arial,Bold' ('Adobe-Identity' character collection)

Mam z 1000 takich pdfów i potrzebuję jakiegoś skryptu do parsowania.

OCR również odpada, obrazy generowane z pdf'a są mało czytelne.

Ma ktoś pomysł jak to w miarę szybko sparsować ? Ma ktoś jakieś doświadczenie z ghostscriptem i jest w stanie pomóc ?

#programowanie #pdf #ghostscript #postscript

biczek

21.10.2014, 23:17:42

@Skalpel_: a ocrem próbowałeś ?

markaron

22.10.2014, 05:14:57

@Skalpel_: W pracy do tego wykorzystujemy iTextSharp (dla .NET) oraz iText (dla Javy)

Skalpel_

22.10.2014, 10:20:25

@markaron: iText również sobie z tym nie radzi. @biczek Testowałem cuneiform, gocr i tessaract, ale obraz generowany z pdf jest zbyt mało czytelny.

biczek

22.10.2014, 10:38:56

@Skalpel_: dej próbkę dekstu i próbkę tego co Ci wychodzi ;) Próbowałeś z konwersją na utf 8 + usuwanie ?

Skalpel_

22.10.2014, 10:55:33

@biczek: http://lepszykod.pl/sample.png

biczek

22.10.2014, 11:01:16

@Skalpel_: chodziło mi o próbkę pdf ;P

Skalpel_

22.10.2014, 11:02:42

http://lepszykod.pl/sample.pdf

biczek

22.10.2014, 11:13:51

@Skalpel_: Nie wspiminałeś że tableki to som ^.^ Wiem że płatny soft rozpoznaje tabele, ale nie spotkałem się z darmowym. ocr online wypakowywuje tekst ale bez tabel.

Skalpel_

22.10.2014, 12:10:24

@biczek: kij z tabelkami, wystarczy mi czysty tekst. regexpem jakoś to ogarne pozniej.

biczek

22.10.2014, 12:36:37

@Skalpel_: http://www.onlineocr.net obczaj to.

Skalpel_

22.10.2014, 19:44:58

@biczek: Dzieki za link. No na tej stronie działa zajebiście. Ale bez rejestracji jest Captcha co utrudnia zautomatyzowanie. Natomiast po zalogowaniu można sparsować tylko 25 plików za free. Od biedy przeszło by takie rozwiązanie ale szukam czegoś lepszego. Tesseract nie daje rady. Znasz może jakiś inny dobry OCR?

biczek

22.10.2014, 21:27:08

@Skalpel_: ( ͡° ͜ʖ ͡°) Podpowiedziałbym Ci soft ale jest raczej bardzo płatny ^.^

biczek

22.10.2014, 21:36:35

@biczek: wiem że kofax to potrafi, mediusfloł i abby(ale pewnie jakaś pr0 wersja) dla 1000 plików nie opłaca się z tym męczyć. Może opencv pomoże?

Skalpel_

23.10.2014, 17:51:36

@biczek: Wykminiłem patent na to. Wykorzystałem do tego biblioteke selenium która odpala mi Firefoxa z pdfem, zaznacza wszystko i kopiuje do schowka. ( ͡º ͜ʖ͡º) W miare szybko działa i nie trzeba captcha przepisywac :E pozdr.

Aktywne Wpisy

Aktywne Znaleziska

Orlen obniżył ceny gazu.

Polityka klimatyczna UE uderza w jej rodzimy przemysł. Dlatego będzie zmieniona

Czy brakuje mężczyzn na studiach medycznych? Nowy raport

Deweloperzy i fliperzy omijają prawo? Ekspert o mieszkaniach mniejszych niż 25m2

NBP podał zysk sektora bankowego. Kolejny ponad 20-proc. wzrost

Popularne tagi