Mireczki wiecie może jak wypakować tekst z PDFa, który nie posiada informacji o czcionkach(CMAP) - prawdopodobnie zostało to usunięte z pliku, dla oszczędności pamięci. PDFa można normalnie odczytywać np. w Adobe Reader, natomiast problem pojawia się właśnie przy wypakowywaniu tekst przy użyciu GhostScriptu, pdf2txt czy pdf2ps - nie można tego rozkodować i out wyglada mniej więcej tak:
(cid:86)(cid:92)(cid:86)(cid:87)(cid:17) i pojawiają się takiego błędy:
Can't find CMap Identity-UTF16-H building a CIDDecoding resource.
Can't find CID font "ArialBlack".
Syntax Error: Couldn't find a font to substitute for 'Arial' ('Adobe-Identity' character collection)
Syntax Error: Couldn't find a font to substitute for 'Arial,Bold' ('Adobe-Identity' character collection) Mam z 1000 takich pdfów i potrzebuję jakiegoś skryptu do parsowania.
OCR również odpada, obrazy generowane z pdf'a są mało czytelne.
Ma ktoś pomysł jak to w miarę szybko sparsować ? Ma ktoś jakieś doświadczenie z ghostscriptem i jest w stanie pomóc ?
@Skalpel_: Nie wspiminałeś że tableki to som ^.^ Wiem że płatny soft rozpoznaje tabele, ale nie spotkałem się z darmowym. ocr online wypakowywuje tekst ale bez tabel.
@biczek: Dzieki za link. No na tej stronie działa zajebiście. Ale bez rejestracji jest Captcha co utrudnia zautomatyzowanie. Natomiast po zalogowaniu można sparsować tylko 25 plików za free. Od biedy przeszło by takie rozwiązanie ale szukam czegoś lepszego. Tesseract nie daje rady. Znasz może jakiś inny dobry OCR?
@biczek: Wykminiłem patent na to. Wykorzystałem do tego biblioteke selenium która odpala mi Firefoxa z pdfem, zaznacza wszystko i kopiuje do schowka. ( ͡º͜ʖ͡º) W miare szybko działa i nie trzeba captcha przepisywac :E pozdr.
(cid:51)(cid:58)(cid:3)(cid:44)(cid:57)(cid:3)(cid:16)
(cid:36)(cid:71)(cid:80)(cid:76)(cid:81)(cid:17)
(cid:86)(cid:76)(cid:72)(cid:70)(cid:17)
(cid:86)(cid:92)(cid:86)(cid:87)(cid:17)
i pojawiają się takiego błędy:
Can't find CMap Identity-UTF16-H building a CIDDecoding resource.
Can't find CID font "ArialBlack".
Syntax Error: Couldn't find a font to substitute for 'Arial' ('Adobe-Identity' character collection)
Syntax Error: Couldn't find a font to substitute for 'Arial,Bold' ('Adobe-Identity' character collection)
Mam z 1000 takich pdfów i potrzebuję jakiegoś skryptu do parsowania.
OCR również odpada, obrazy generowane z pdf'a są mało czytelne.
Ma ktoś pomysł jak to w miarę szybko sparsować ? Ma ktoś jakieś doświadczenie z ghostscriptem i jest w stanie pomóc ?
#programowanie #pdf #ghostscript #postscript