Wpis z mikrobloga

Skopiuj link

31.01.2020, 13:21:29

Poleci ktoś rozwiązanie online (najlepiej na własnym serwerze) do wyciągania zawartości z PDF? #php

01.02.2020, 17:38:12 via Android

@lutecki Użyłbym Google Vision API. W miarę szybko w miarę tanio i raczej dobrze. Amazon też coś daje chyba.

Jeżeli rozwiązanie niezależne,, to najpierw ogarnij coś do renderowania PDF w dużej rozdzielczości a później jakis OCR.

Na upartego możesz zrobić jakiś backend w PHP natomiast cała robota.moze być robiona przez aplikacje linuksowe odpalane z crona.

lutecki

01.02.2020, 22:14:16

@adam-fischer-547727: i tak to finalnie zrobiłem. Podpiąłem akcję uruchamiania unixowego pdftotext dla każdego pliku pdf który jest wrzucany do katalogu. A upload robię tam za pomocą php. Sekundę później odczytuję txt o takiej samej nazwie i serwuję jako odpowiedź do zapytania post wrzucającego pdfa. Działa wyśmienicie.

adam-fischer-547727

02.02.2020, 19:54:26 via Android