#python #programowanie #programista15k #python3 #pandas #ghostscript
Czy ktoś może mi pomóc z kodem konwersji pliku PDF na XLSX?
Męczę się już kilka godzin i nie otrzymuję oczekiwanego rezultatu czyli przeniesienia zawartości PDF 1:1 do XLSX, ciągle otrzymuję zły format
To co otrzymuje na ten czas
Moj kod

W zdjeciach na imgur przedstawil co jest zawarte w pliku PDF, a co niestety otrzymuje w XLSX. Chodzi mi o konwersje pliku w taki sposob
to raczej nie jest możliwe, tzn - nie bez dużych nakładów czasowych - rozumiem że nie podoba ci się że tracisz formatowanie, kolory itd, to przeważnie nie są rzeczy które łatwo się przenosi
  • Odpowiedz
@harnasiek: W kodzie chyba wiele nie poprawisz, bo on parsuje tylko surowe, tekstowe dane, rozbija na linijki a potem na pojedyncze wyrażenia. Nie ma tu miejsca na formatowanie, grafikę, itp.
Są jakieś komercyjne rozwiązania, które nawet sobie radzą z tabelami, ale dość drogie:
https://docs.aspose.com/pdf/python-net/convert-pdf-to-excel/
Można też spróbować napisać jakiegoś bota, który wykorzysta taki zaawansowany konwerter online.
  • Odpowiedz
ciekawy (i działający) sposób na zmniejszanie objętości PDFów z użyciem #ghostscript

1. ściągamy GS (https://ghostscript.com/download/gsdnld.html)
2. zmniejszamy, np.:

gswin64 -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -sOutputFile=newfile.pdf originalfile.pdf

3. PROFIT

przełącznikiem jest określenie rozdzielczości (wielkości) z użyciem:
/screen - low
/ebook - medium
/printer - high

źródło: https://jorge.fbarr.net/2012/11/29/reducing-pdf-file-size-in-linux/

#ebook #pdf
  • Odpowiedz
Mireczki wiecie może jak wypakować tekst z PDFa, który nie posiada informacji o czcionkach(CMAP) - prawdopodobnie zostało to usunięte z pliku, dla oszczędności pamięci. PDFa można normalnie odczytywać np. w Adobe Reader, natomiast problem pojawia się właśnie przy wypakowywaniu tekst przy użyciu GhostScriptu, pdf2txt czy pdf2ps - nie można tego rozkodować i out wyglada mniej więcej tak:

(cid:51)(cid:58)(cid:3)(cid:44)(cid:57)(cid:3)(cid:16)

(cid:36)(cid:71)(cid:80)(cid:76)(cid:81)(cid:17)

(cid:86)(cid:76)(cid:72)(cid:70)(cid:17)

(cid:86)(cid:92)(cid:86)(cid:87)(cid:17)

i pojawiają się takiego błędy:

Can't find CMap Identity-UTF16-H building a
@biczek: Wykminiłem patent na to. Wykorzystałem do tego biblioteke selenium która odpala mi Firefoxa z pdfem, zaznacza wszystko i kopiuje do schowka. ( ͡º ͜ʖ͡º) W miare szybko działa i nie trzeba captcha przepisywac :E pozdr.
  • Odpowiedz
#informatyka #pdf #dtp #doc #imagemagick #ghostscript

Jest jakiś sposób, żeby w wierszu polecenia przekonwertować DOC na PDF?

Ewentualnie DOC na PS (Postscript) - bo PS na PDF umie Imagemagick.

Coś tam niby znalazłem, że da się z wiersza poleceń odpalić Worda albo OpenOffica Writer. Ale nadal za każdym plikiem trzeba kliknąć "Zapisz".

Dobrze jakby ten program był darmowy i porządny. A nie jakieś "Free converter" firmy "Super extra soft".

W sumie jedyne