#ghostscript

23.12.2023, 14:56:31

0

#python #programowanie #programista15k #python3 #pandas #ghostscript
Czy ktoś może mi pomóc z kodem konwersji pliku PDF na XLSX?
Męczę się już kilka godzin i nie otrzymuję oczekiwanego rezultatu czyli przeniesienia zawartości PDF 1:1 do XLSX, ciągle otrzymuję zły format
To co otrzymuje na ten czas
Moj kod

W zdjeciach na imgur przedstawil co jest zawarte w pliku PDF, a co niestety otrzymuje w XLSX. Chodzi mi o konwersje pliku w taki sposob

Oo-oO

23.12.2023, 18:39:48 via Wykop

0

to raczej nie jest możliwe, tzn - nie bez dużych nakładów czasowych - rozumiem że nie podoba ci się że tracisz formatowanie, kolory itd, to przeważnie nie są rzeczy które łatwo się przenosi

xavhowk

23.12.2023, 19:47:50 via Wykop

0

@harnasiek: W kodzie chyba wiele nie poprawisz, bo on parsuje tylko surowe, tekstowe dane, rozbija na linijki a potem na pojedyncze wyrażenia. Nie ma tu miejsca na formatowanie, grafikę, itp.
Są jakieś komercyjne rozwiązania, które nawet sobie radzą z tabelami, ale dość drogie:
https://docs.aspose.com/pdf/python-net/convert-pdf-to-excel/
Można też spróbować napisać jakiegoś bota, który wykorzysta taki zaawansowany konwerter online.

kontrowersje

10.01.2017, 08:46:37

1

ciekawy (i działający) sposób na zmniejszanie objętości PDFów z użyciem #ghostscript

1. ściągamy GS (https://ghostscript.com/download/gsdnld.html)
2. zmniejszamy, np.:

gswin64 -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -sOutputFile=newfile.pdf originalfile.pdf

3. PROFIT

przełącznikiem jest określenie rozdzielczości (wielkości) z użyciem:
/screen - low
/ebook - medium
/printer - high

źródło: https://jorge.fbarr.net/2012/11/29/reducing-pdf-file-size-in-linux/

#ebook #pdf

Skalpel_

21.10.2014, 23:14:43

5

Mireczki wiecie może jak wypakować tekst z PDFa, który nie posiada informacji o czcionkach(CMAP) - prawdopodobnie zostało to usunięte z pliku, dla oszczędności pamięci. PDFa można normalnie odczytywać np. w Adobe Reader, natomiast problem pojawia się właśnie przy wypakowywaniu tekst przy użyciu GhostScriptu, pdf2txt czy pdf2ps - nie można tego rozkodować i out wyglada mniej więcej tak:

(cid:51)(cid:58)(cid:3)(cid:44)(cid:57)(cid:3)(cid:16)

(cid:36)(cid:71)(cid:80)(cid:76)(cid:81)(cid:17)

(cid:86)(cid:76)(cid:72)(cid:70)(cid:17)

(cid:86)(cid:92)(cid:86)(cid:87)(cid:17)

i pojawiają się takiego błędy:

Can't find CMap Identity-UTF16-H building a

biczek

22.10.2014, 12:36:37

1

@Skalpel_: http://www.onlineocr.net obczaj to.

Skalpel_

23.10.2014, 17:51:36

1

@biczek: Wykminiłem patent na to. Wykorzystałem do tego biblioteke selenium która odpala mi Firefoxa z pdfem, zaznacza wszystko i kopiuje do schowka. ( ͡º ͜ʖ͡º) W miare szybko działa i nie trzeba captcha przepisywac :E pozdr.

mk321

09.09.2014, 19:15:06

1

#informatyka #pdf #dtp #doc #imagemagick #ghostscript

Jest jakiś sposób, żeby w wierszu polecenia przekonwertować DOC na PDF?

Ewentualnie DOC na PS (Postscript) - bo PS na PDF umie Imagemagick.

Coś tam niby znalazłem, że da się z wiersza poleceń odpalić Worda albo OpenOffica Writer. Ale nadal za każdym plikiem trzeba kliknąć "Zapisz".

Dobrze jakby ten program był darmowy i porządny. A nie jakieś "Free converter" firmy "Super extra soft".

W sumie jedyne

Srala-Bartek

09.09.2014, 19:20:51

1

@mk321:

marcin@marcin-HP:~$ doc2pdf

Program doc2pdf nie jest obecnie zainstalowany. Możesz go zainstalować wpisując:

sudo apt-get install unoconv

Pierwszy strzał, nie wiem czy jest dobry.

mk321

09.09.2014, 19:29:12

0

@Srala-Bartek: Potrzebuję narzędzia na Windowsa, ale chyba też jest to samo. Przetestuję.

@manny_lanny: No mogę w OpenOffice, ale jak zrobić w nim z wiersza poleceń? Jakbym miał np. 1000 plików?