Wpis z mikrobloga

Skopiuj link

05.01.2023, 11:56:19

Wyobraźcie sobie, że jest 50 tysięcy PDFów, każdy zapisany zgodnie z widzi misię autora, ale każdy ma wspólną część danych (np. przychody firmy, ilość pracowników - tylko różnie są zapisane, np. w tabelce lub bez)

Da się to jakoś poukładać wrzucając w jakiś soft, aby wyciągnąć excela z tymi informacjami + informacjami nie pasującymi do wzoru? (czyli jakiś OCR + jakieś wstępne poukładanie danych zgodnie z regułami, które trzeba wymyślić)?

Jakieś wskazówki jak się za to zabrać?

#programista15k #programowanie #informatyka #bigdata

GienekZFabrykiOkienek

05.01.2023, 11:58:33

@SRzeyamlon: Stażyści ( ͡° ͜ʖ ͡°)

Supaplex

05.01.2023, 12:09:34

@SRzeyamlon: albo praktykanci ( ͡° ͜ʖ ͡°)

walczak__

05.01.2023, 12:14:32

@SRzeyamlon: na linuxach są narzędzia do grepowania w pdf'ach. Do tego jakiś skrypcik i jesteś wstępnie w miarę to uporządkować a dalej próbować wyciągać dane jakie potrzebujesz.

fiddle

05.01.2023, 12:14:33

@SRzeyamlon: AI made in India ( ͡° ͜ʖ ͡°)

zibizz1

05.01.2023, 12:15:04

@SRzeyamlon: Da się. Musisz użyc OCRa tego którego ja używam i oprogramoania które stworzyłem do wrzucania odczytanych danych do dowolnego szblonu w excelu który przygotujesz

cohontes

05.01.2023, 12:20:49

@SRzeyamlon: a kto zweryfikuje czy te 50tys pdfow zostało poprawnie obrobione? ( ͡° ͜ʖ ͡°)

SRzeyamlon

05.01.2023, 12:24:15

@cohontes: jeśli po paru próbkach ja zweryfikuje, że system działa poprawnie w określonych zakresach danych, to będzie dało się to robić hurtowo.

Mam 30 pracowników, którzy mogą to wstępnie weryfikować przez miesiąc, ale nie siedzieć 3 lata i przepisywać.

cohontes

05.01.2023, 12:29:47

@SRzeyamlon: no zależy jakie to są dane. Jeśli to dane finansowe i są ważne to raczej sprawdzenie na próbce może nie wystarczy. Jeśli finalnie pomyłka może być bardzo kosztowna. Odczyt z PDF do excela na ogół nie jest łatwy o ile tabelka nie ma naprawdę przystępnej formy bo sam długo nad takim czymś walczyłem. Również z kilkoma bibliotekami w pythonie. A jeśli dane jeszcze mogą się zmieniać to już w ogóle.

Mithrindil

05.01.2023, 17:19:50 via iOS

@SRzeyamlon: Zapytaj ChatGPT

Aktywne Wpisy

pieknylowca

pieknylowca +135

4 godz. i 34 min temu

A czy ty jesteś fucking unstopable? #frajerzyzmlm

chlopak_twojej_matki

chlopak_twojej_matki +86

3 godz. i 19 min temu

Z takich ciekawostek z II Wojny Światowej to moja Ś.P. prababcia często mi opowiadała jak wyglądała u nich okupacja w małej mieścince w południowej Polsce. Miejscowość była niedaleko Krakowa i Oświęcimia, więc było sporo wojsk niemieckich i SSmanów. Mieli duży dom, więc często zdarzało im się "gościć" (im się raczej nie odmawiało, bo mogło się skończyć źle) SSmanów i babcia opowiadała mi, że zawsze byli kulturalni, dziękowali, a nawet zdarzało się, że

Aktywne Wpisy

Aktywne Znaleziska

Izrael dał ultimatum Hamasowi. Rozejm, albo ofensywa na Rafah

Donald Trump podchwycił pomysł Andrzeja Dudy. Żąda 3% PKB na obronnosc

Barbara Nowak i kolejny list do Terleckiego

Kolejny żubr potrącony. Znowu przez wojsko. "Na żubry trzeba chuchać"

Czy Gaza musi zginąć

Popularne tagi