#python #programowanie #programista15k #python3 #pandas #ghostscript
Czy ktoś może mi pomóc z kodem konwersji pliku PDF na XLSX?
Męczę się już kilka godzin i nie otrzymuję oczekiwanego rezultatu czyli przeniesienia zawartości PDF 1:1 do XLSX, ciągle otrzymuję zły format
To co otrzymuje na ten czas
Moj kod

W zdjeciach na imgur przedstawil co jest zawarte w pliku PDF, a co
  • 2
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

to raczej nie jest możliwe, tzn - nie bez dużych nakładów czasowych - rozumiem że nie podoba ci się że tracisz formatowanie, kolory itd, to przeważnie nie są rzeczy które łatwo się przenosi
  • Odpowiedz
@harnasiek: W kodzie chyba wiele nie poprawisz, bo on parsuje tylko surowe, tekstowe dane, rozbija na linijki a potem na pojedyncze wyrażenia. Nie ma tu miejsca na formatowanie, grafikę, itp.
Są jakieś komercyjne rozwiązania, które nawet sobie radzą z tabelami, ale dość drogie:
https://docs.aspose.com/pdf/python-net/convert-pdf-to-excel/
Można też spróbować napisać jakiegoś bota, który wykorzysta taki zaawansowany konwerter online.
  • Odpowiedz
Mireczki wiecie może jak wypakować tekst z PDFa, który nie posiada informacji o czcionkach(CMAP) - prawdopodobnie zostało to usunięte z pliku, dla oszczędności pamięci. PDFa można normalnie odczytywać np. w Adobe Reader, natomiast problem pojawia się właśnie przy wypakowywaniu tekst przy użyciu GhostScriptu, pdf2txt czy pdf2ps - nie można tego rozkodować i out wyglada mniej więcej tak:

(cid:51)(cid:58)(cid:3)(cid:44)(cid:57)(cid:3)(cid:16)

(cid:36)(cid:71)(cid:80)(cid:76)(cid:81)(cid:17)

(cid:86)(cid:76)(cid:72)(cid:70)(cid:17)
  • 14
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@biczek: Wykminiłem patent na to. Wykorzystałem do tego biblioteke selenium która odpala mi Firefoxa z pdfem, zaznacza wszystko i kopiuje do schowka. ( ͡º ͜ʖ͡º) W miare szybko działa i nie trzeba captcha przepisywac :E pozdr.
  • Odpowiedz