Wpis z mikrobloga

Wyobraźcie sobie, że jest 50 tysięcy PDFów, każdy zapisany zgodnie z widzi misię autora, ale każdy ma wspólną część danych (np. przychody firmy, ilość pracowników - tylko różnie są zapisane, np. w tabelce lub bez)

Da się to jakoś poukładać wrzucając w jakiś soft, aby wyciągnąć excela z tymi informacjami + informacjami nie pasującymi do wzoru? (czyli jakiś OCR + jakieś wstępne poukładanie danych zgodnie z regułami, które trzeba wymyślić)?

Jakieś wskazówki jak się za to zabrać?

#programista15k #programowanie #informatyka #bigdata
  • 9
  • Odpowiedz
@SRzeyamlon: Da się. Musisz użyc OCRa tego którego ja używam i oprogramoania które stworzyłem do wrzucania odczytanych danych do dowolnego szblonu w excelu który przygotujesz
  • Odpowiedz
@cohontes: jeśli po paru próbkach ja zweryfikuje, że system działa poprawnie w określonych zakresach danych, to będzie dało się to robić hurtowo.

Mam 30 pracowników, którzy mogą to wstępnie weryfikować przez miesiąc, ale nie siedzieć 3 lata i przepisywać.
  • Odpowiedz
@SRzeyamlon: no zależy jakie to są dane. Jeśli to dane finansowe i są ważne to raczej sprawdzenie na próbce może nie wystarczy. Jeśli finalnie pomyłka może być bardzo kosztowna. Odczyt z PDF do excela na ogół nie jest łatwy o ile tabelka nie ma naprawdę przystępnej formy bo sam długo nad takim czymś walczyłem. Również z kilkoma bibliotekami w pythonie. A jeśli dane jeszcze mogą się zmieniać to już w ogóle.
  • Odpowiedz