Wykop.pl Wykop.pl
  • Główna
  • Wykopalisko233
  • Hity
  • Mikroblog
  • Zaloguj się
  • Zarejestruj się
Zaloguj się

Popularne tagi

  • #ciekawostki
  • #informacje
  • #technologia
  • #polska
  • #swiat
  • #motoryzacja
  • #podroze
  • #heheszki
  • #sport

Wykop

  • Ranking
  • Osiągnięcia
  • FAQ
  • O nas
  • Kontakt
  • Reklama
  • Regulamin

352

OCR Linux –

OCR Linux –

Krótki poradnik z przykładem jak szybko, skutecznie a przede wszystkim za darmo przerabiać skany dokumentów w formacie pdf na funkcjonalne dokumenty z których można kopiować tekst albo wyszukiwać.

t.....t
t.....t
konto usunięte
z
openms.net
dodany: 22.08.2017, 19:58:44
  • #
    linux
  • #
    ocr
  • #
    ubuntu
  • #
    debian
  • #
    serwery
  • 86
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Treści powiązane (4)

film prezentujący działanie skryptu
konto usunięte
z youtu.be
  • 9
paczka pdf sandwich
konto usunięte
z sourceforge.net
  • 5

Komentarze (86)

najlepsze

odzyskajdane
odzyskajdane
24.08.2017, 17:58:45
  • 0
office lens na androida, może mało wygodne bo nie każdy lubi z poziomu telefonu, ale całkiem nieźle to działa. Swoją drogą, ostatnio dostałem kilkanaście stron rękopisu i po raz pierwszy wypróbowałem pisanie głosowe google... idealnie, szybko i bez błędów (może trochę pomaga podwójny mikrofon i redukcja szumów w P10?)
Jedyny problem to konieczność dopisania znaków interpunkcyjnych. Polecam!
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

PiotrasSNK
PiotrasSNK
23.08.2017, 22:06:20
  • 0
Tyktak
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

Joterini
Joterini
Joterini
23.08.2017, 20:12:40 via Android
  • 0
Hej, a jak wygląda rozpoznawanie kolumn czy podziału stron. Działa inteligentnie czy z kolumn (to chyba się szpalty nazywa) robi sieczke?
W sumie przetestuję w przyszłym tygodniu. Mam kilku niewidomych qmpli, OCRy to spora część ich życia.
  • 1
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

t.....t
t.....t
konto usunięte
Autor
23.08.2017, 20:25:57
  • 0
@Joterini: Niestety nie sprawdzałem tego i zakładam, że obszarowe kopiowanie tekstu nie jest odpowiedzią. W komentarzach pojawiło się wiele ciekawych pytań na które chętnie odpowiem po testach bo przygotowuje kolejny artykuł z opisem gotowego vm.
  • Odpowiedz
OperatorHydrolokator
OperatorHydrolokator
23.08.2017, 20:09:02 via Android
  • 0
@time0ut ja teseracta wielokrotnie używałem w skryptach kiedy np. dostawałem w jednym pdfie zeskanowane 200 faktur czy tam innych dokumentów, a trzeba było podzielić na osobne pliki i nadać im odpowiednie nazwy. Tesseract + pdftk + sed + awk itd. i jechane.
  • 2
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

t.....t
t.....t
konto usunięte
Autor
23.08.2017, 20:14:20
  • 0
@OperatorHydrolokator:
Takie przypadki rozwiązuje w taki sposób, że najpierw robię ocr pliku z 200 stronami (zadanie jest rozbijane na maksymalną ilość wątków i znacznie szybciej się wykonuje OCR) następnie pdftk rozbijam duży plik na pojedyncze pliki i na końcu łącze wielostronicowe faktury pdfmodem. Tak jest najszybiciej według mnie
  • Odpowiedz
OperatorHydrolokator
OperatorHydrolokator
23.08.2017, 20:28:14 via Android
  • 0
@time0ut szczerze mówiąc, to nigdy się nie zastanawiałem nad jakąś mega optymalizacją skryptu bo takie "strzały" trafiają mi się rzadko (kilka razy w miesiącu) i w sumie to mi nie zależy czy to trwa 5 czy 15 minut ;) Odpalam, idę na kawę czy obiad, wracam i jest.
  • Odpowiedz
B.....d
B.....d
konto usunięte 23.08.2017, 20:03:10
  • 0
A co z bardziej zaawansowanymi plikami? Chodzi mi o np. pdf lub skany gdzie jest dużo tabel, zagnieżdżonych itp. Czy skrypt zachowa jako taką tabele aby można było łatwiej wkleić do np. Excela?
  • 1
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

t.....t
t.....t
konto usunięte
Autor
23.08.2017, 20:10:27
  • 1
@Buckethead: Nie mam aktualnie żadnego takiego skanu żeby sprawdzić i odpowiedzieć bo branża w której pracuje operuje raczej prostymi dokumentami - faktury, listy elementów itp. Skopiowałem wartości z pliku Faktury z OCR, wkleiłem do LibreOffice Calc i elementy wkleiły się do różnych komórkach. Będę miał na uwadze aby to przetestować dokładnie.
  • Odpowiedz
ufo99
ufo99
23.08.2017, 20:00:25
  • 0

Komentarz usunięty przez moderatora

krak
krak
23.08.2017, 19:48:46
  • 0
A macie jakiś dobry i najlepiej darmowy, program do skanowania książek?
  • 1
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

UmCykCyk
UmCykCyk
24.08.2017, 08:04:14 via Android
  • 0
@krak przy skanowaniu książek to największym problemem jest przekładanie kartek :-)
  • Odpowiedz
vendel
vendel
23.08.2017, 19:46:39 via Android
  • 0
Kupta se readsoft
  • 1
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

tellet
tellet
23.08.2017, 20:37:18 via Android
  • 2
@vendel Tylko Abbyy (✌ ゚ ∀ ゚)☞
  • Odpowiedz
Kykax
Kykax
Kykax
23.08.2017, 19:42:18
  • -1
Treść przeznaczona dla osób powyżej 18 roku życia...
  • 1
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

t.....t
t.....t
konto usunięte
Autor
23.08.2017, 19:48:44
  • 4
@Kykax: wersja 3.04 jest znacznie lepsza od poprzednich i w mojej opinii po przerobieniu kilku dziesięciu tysięcy plików jest bardzo skuteczna. Przede wszystkim jest to w pełni darmowe rozwiązanie i trzeba się się pilnować aby jakość skanów była odpowiednia
  • Odpowiedz
jedzbudynie
jedzbudynie
23.08.2017, 20:14:40
  • -10
wow, zrobiłeś pętelke w bashu i główna na wykopie.
Zrób jeszcze watchdoga na nowe pliki i reklamuj się jako nowy bill gates

widzę że poziom niezmienny.
  • 4
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

fervi
fervi
23.08.2017, 20:21:39
  • 13
@jedzbudynie: czekamy na twoje skrypty
  • Odpowiedz
t.....t
t.....t
konto usunięte
Autor
23.08.2017, 21:01:36
  • 4
@jedzbudynie: Niestety wprowadzasz w błąd. Owszem przeglądarki uruchamiają PDFy ale pozwalają na kopiowanie tekstu z wygenerowanych dokumentów a nie zeskanowanych bez ocr (osadzonych obrazów). Na początku mnie zastanowiłeś pierwszym komentarzem ale ten Cię troszkę obnażył.
  • Odpowiedz
  • <
  • 1
  • 2
  • 3
  • Strona 2 z 3
  • >

Hity

tygodnia

Kolejny bandyta drogowy
Kolejny bandyta drogowy
3253
Zostałem zaatakowany na klatce schodowej własnego domu
Zostałem zaatakowany na klatce schodowej własnego domu
2855
Zmniejsza się tolerancja na hałaśliwe zwięrzęta domowe
Zmniejsza się tolerancja na hałaśliwe zwięrzęta domowe
2577
Mieszkańcy Świnoujścia zablokowali przejście do Ahlbeck. To wszystko w ramach pr
Mieszkańcy Świnoujścia zablokowali przejście do Ahlbeck. To wszystko w ramach pr
2431
Mimo że ma dom pod Warszawą posiada również w niej mieszkanie komunalne.
Mimo że ma dom pod Warszawą posiada również w niej mieszkanie komunalne.
2346
Pokaż więcej

Powiązane tagi

  • #ubuntu
  • #windows
  • #komputery
  • #debian
  • #archlinux
  • #informatyka
  • #programowanie
  • #linuxmint
  • #pytanie
  • #heheszki
  • #pcmasterrace
  • #apple
  • #mint
  • #kiciochpyta
  • #linuxmasterrace

Wykop © 2005-2025

  • O nas
  • Reklama
  • FAQ
  • Kontakt
  • Regulamin
  • Polityka prywatności i cookies
  • Hity
  • Ranking
  • Osiągnięcia
  • Changelog
  • więcej

RSS

  • Wykopane
  • Wykopalisko
  • Komentowane
  • Ustawienia prywatności

Regulamin

Reklama

Kontakt

O nas

FAQ

Osiągnięcia

Ranking