@LM317K:

PostScript (PS) is a page description language in the electronic publishing and desktop publishing business. It is a dynamically typed, concatenative programming language and was created at Adobe Systems by John Warnock, Charles Geschke, Doug Brotz, Ed Taft and Bill Paxton from 1982 to 1984.
  • Odpowiedz
Mireczki wiecie może jak wypakować tekst z PDFa, który nie posiada informacji o czcionkach(CMAP) - prawdopodobnie zostało to usunięte z pliku, dla oszczędności pamięci. PDFa można normalnie odczytywać np. w Adobe Reader, natomiast problem pojawia się właśnie przy wypakowywaniu tekst przy użyciu GhostScriptu, pdf2txt czy pdf2ps - nie można tego rozkodować i out wyglada mniej więcej tak:

(cid:51)(cid:58)(cid:3)(cid:44)(cid:57)(cid:3)(cid:16)

(cid:36)(cid:71)(cid:80)(cid:76)(cid:81)(cid:17)

(cid:86)(cid:76)(cid:72)(cid:70)(cid:17)
  • 14
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@biczek: Wykminiłem patent na to. Wykorzystałem do tego biblioteke selenium która odpala mi Firefoxa z pdfem, zaznacza wszystko i kopiuje do schowka. ( ͡º ͜ʖ͡º) W miare szybko działa i nie trzeba captcha przepisywac :E pozdr.
  • Odpowiedz