Wykop.pl Wykop.pl
  • Główna
  • Wykopalisko198
  • Hity
  • Mikroblog
  • Zaloguj się
  • Zarejestruj się
Zaloguj się

Popularne tagi

  • #ciekawostki
  • #informacje
  • #technologia
  • #polska
  • #swiat
  • #motoryzacja
  • #podroze
  • #heheszki
  • #sport

Wykop

  • Ranking
  • Osiągnięcia
  • FAQ
  • O nas
  • Kontakt
  • Reklama
  • Regulamin

352

OCR Linux –

OCR Linux –

Krótki poradnik z przykładem jak szybko, skutecznie a przede wszystkim za darmo przerabiać skany dokumentów w formacie pdf na funkcjonalne dokumenty z których można kopiować tekst albo wyszukiwać.

t.....t
t.....t
konto usunięte
z
openms.net
dodany: 22.08.2017, 19:58:44
  • #
    linux
  • #
    ocr
  • #
    ubuntu
  • #
    debian
  • #
    serwery
  • 86
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Treści powiązane (4)

film prezentujący działanie skryptu
konto usunięte
z youtu.be
  • 9
paczka pdf sandwich
konto usunięte
z sourceforge.net
  • 5

Komentarze (86)

najlepsze

mbn-pl
mbn-pl
22.08.2017, 20:37:47
  • 17
Ciekawe, zwłaszcza że działa z linii poleceń więc można sobie przez shella na raspberry pi uruchomić. Natomiast fajnie by było gdybyś wrzucił przykład jak to działa, np. zeskanowana strona książki. Jak sobie radzi z tekstem i wyodrębnianiem zdjęć lub przypisów. Bo nie chce mi się instalować tego wszystkiego po to, żeby się przekonać że nie warto było ;)
  • 11
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

t.....t
t.....t
konto usunięte
Autor
22.08.2017, 21:10:15
  • 3
@mbn-pl: juz nagrałem filmik na youtube z efektem działania, pare minut jeszcze. @rekoj: może być maszyna wirtualna i tak zreszta robie bo pliki trzymam na NAS i przydział montuje cifs-utils. Następnie odpalam skrypt na przydziale sieciowym
  • Odpowiedz
t.....t
t.....t
konto usunięte
Autor
22.08.2017, 21:16:38
  • 10
@mbn-pl: https://youtu.be/y11tdwdLbss dodałem do powiązanych
  • Odpowiedz
e.....5
e.....5
konto usunięte 23.08.2017, 09:09:43
  • 16
Przydatna rzecz. Ale warto też wiedzieć, że otwarcie zdjęcia, skanu znajdującego się na dysku google w dokumentach google robi OCR automatycznie.
  • 16
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

t.....t
t.....t
konto usunięte
Autor
23.08.2017, 09:44:26
  • 20
@e16z5: Ja to stosuje na skale, aktualnie przerabiam 25tyś dokumentów w różnych lokalizacjach. Jakbym miał dla siebie przerobić jednorazowo kilka dokumentów to również nie robiłbym aż takiego rozmachu. To rozwiązanie jest dla dużej skali dokumentów. Ten skrypt uruchomiłem na 4 serwerach i każdemu dałem po 6 tyś plików do OCR. Zrobiły przez 12h łącznie 6 tyś stron.
  • Odpowiedz
kasjo
kasjo
kasjo
23.08.2017, 10:45:59 via Android
  • 21
@time0ut "tys."
  • Odpowiedz
t.....t
t.....t
konto usunięte
Autor
23.08.2017, 16:22:39
  • 4
maszyna przygotowana, teraz robię instrukcje. Między czasie nagrałem przykład działania skryptu na serwerze OCR w sieci
https://youtu.be/9sTH_-pdUa4
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

villog
villog
villog
23.08.2017, 21:50:14
  • 3
Nie musisz korzystać z kobyły typu awk/sed, można nieco prościej:

file_name=$(basename $line)
file_path=$(dirname $line)
file_ocr="${file_name%%.pdf}_ocr.pdf"
  • 2
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

t.....t
t.....t
konto usunięte
Autor
23.08.2017, 22:09:17
  • 2
@villog: Moje rozwiązanie to wynikło z starych doświadczeń bo nie raz potrzebowałem ścieżkę do pliku i nazwę pliku. To jest jak stara sprawdzona metoda, która działa to ją stosuję. Przetestuję Twoją i jeśli w każdym przypadku zadziała prawidłowo to jak najbardziej zacznę stosować bo jest czytelniejsza i na pewno szybsza do wykonania. Dziękuję
  • Odpowiedz
msichal
msichal
24.08.2017, 09:37:20
  • 0
@villog: Niedawno spotkałem się z dziwnym zachowaniem basename z C, ścieżka była w stylu ./../../abc/def i zwracało abc zamiast def. Może basename działa poprawnie tylko z bezwzględnymi ścieżkami, nie pamiętam co pisali w manualu. No ale dirname działało poprawnie, więc parę prostych operacji i miałem co chciałem.

ps, to wszystko to dygresja, ja jestem za tym, żeby szczególnie w bashu używać możliwie prostych rozwiązań, bo później człowiek się zastanawia co
  • Odpowiedz
gasdma
gasdma
gasdma
23.08.2017, 20:04:50
  • 3
Treść przeznaczona dla osób powyżej 18 roku życia...
  • 3
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

tellet
tellet
23.08.2017, 20:41:16 via Android
  • 1
@gasdma Adobe daje ciała z OCR polskich znaków, znacznie lepiej robi to Abbyy, który jest robiony przez ludzi zza Buga ( ͡° ͜ʖ ͡°)ノ⌐■-■, ale ogólnie tak jest, że programy układają treść tak aby na pierwszym miejscu wizualnie się zgadzało.
  • Odpowiedz
tellet
tellet
23.08.2017, 21:14:33
  • 0
@gasdma: Wiem bo mam to samo - na to nie ma rady, chyba że robisz ocr do jakiegoś .txt. Czasami daje się jako tako połatać taki dokument, ale zazwyczaj nic ponad "ej, weź mi to przerób do edytowalnej, bo muszę tam coś dopisać/zmienić kilka danych"
  • Odpowiedz
hifonicszeus
hifonicszeus
hifonicszeus
24.08.2017, 04:34:39 via Android
  • 1
A macie coś na Windowsa? Mam bardzo stara książkę i jej skany, strony są żółte (jak to stary papier) i nie mogę niczym tego zrobić natomiast ABBY jest platny
  • 4
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

m.....1
m.....1
konto usunięte 29.08.2017, 22:12:42
  • 1
@hifonicszeus: @time0ut: Zawsze pozostaje Ubuntu on Windows, jeżeli korzystasz z Windows 10. Nie jest to wirtualna maszyna, tylko podsystem.

Musisz włączyć tryb dewelopera:
1. W Ustawieniach Windows (te nowe) -> Aktualizacja i Zabezpieczenia -> Dla deweloperów,
2.
  • Odpowiedz
t.....t
t.....t
konto usunięte
Autor
30.08.2017, 07:06:18
  • 0
@musztarda_1: Dziękuję super porada. Nie używam Windows i nawet na to nie wpadłem. Mam gotowe VM, kompiuje na nim paczki OCR z git i używam w sieci. Czy tego osadzonego W Windows Ubuntu można używać w sieci?
  • Odpowiedz
Lord_Gerwazy
Lord_Gerwazy
23.08.2017, 20:05:14 via Android
  • 1
Brzmi i wygląda obiecująco - świetna robota, wykop!
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

ufo99
ufo99
23.08.2017, 20:00:53
  • 1
@time0ut o widzisz - właśnie czegoś takiego jak sandwich mi brakowało, z tym, że na swoje potrzeby zrobiłem skanowanie (na skanerze taniego wielofunkcyjnego hp) z łączeniem w wielostronicowe pdfy. Tesseracta próbowałem wrzucić do skryptu samemu, ale na którymś etapie stało się to zbyt pokręcone ( ͡° ͜ʖ ͡°)

  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

T.....n
T.....n
konto usunięte 23.08.2017, 19:49:14
  • 1
Czy ktoś próbował i da się w 100% zrzucić tekst ze skanowanej książki? (polskojęzycznej)
  • 1
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

t.....t
t.....t
konto usunięte
Autor
23.08.2017, 19:52:54
  • 1
@TheySeeMeBowlin: Jeśli zrobisz odpowiedniej jakości skany to bez problemu. Należy też w takim przypadku ustawić parametr -layout double jeśli na jednej kartce są zeskanowane 2 strony
  • Odpowiedz
sqzz
sqzz
23.11.2017, 13:52:47
  • 0
@time0ut

Niestety link do poradnika już nie istnieje, więc zwracam się do Ciebie z prośbą o udostępnienie opisu w innej formie.
  • 1
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych odpowiedziach

t.....t
t.....t
konto usunięte
Autor
13.12.2017, 22:54:33
  • 0
@sqzz: Uploaduje skonfigurowaną maszynę wirtualną na nowy serwer. Wkleję linka w którym będzie zawarty opis uruchomienia.
  • Odpowiedz
  • <
  • 1
  • 2
  • 3
  • Strona 1 z 3
  • >

Hity

tygodnia

Najładniejszy MOP w Polsce, doceńmy pracę Pań!
Najładniejszy MOP w Polsce, doceńmy pracę Pań!
3748
I znowu psy: Cztery psy zagryzły 80-latka
I znowu psy: Cztery psy zagryzły 80-latka
3666
Słynne Prince Polo XXL zmniejszyło gramaturę
Słynne Prince Polo XXL zmniejszyło gramaturę
2733
Znalazł wojskowe dokumenty na działce. Policja przeszukała jego dom bez nakazu.
Znalazł wojskowe dokumenty na działce. Policja przeszukała jego dom bez nakazu.
2432
Facet opracował kamerę rejestrującą 2 miliardy FPS i nagrał ruch wiązki lasera
Facet opracował kamerę rejestrującą 2 miliardy FPS i nagrał ruch wiązki lasera
2419
Pokaż więcej

Powiązane tagi

  • #ubuntu
  • #windows
  • #komputery
  • #debian
  • #archlinux
  • #informatyka
  • #linuxmint
  • #programowanie
  • #pytanie
  • #heheszki
  • #pcmasterrace
  • #apple
  • #linuxmasterrace
  • #technologia
  • #mint

Wykop © 2005-2025

  • O nas
  • Reklama
  • FAQ
  • Kontakt
  • Regulamin
  • Polityka prywatności i cookies
  • Hity
  • Ranking
  • Osiągnięcia
  • Changelog
  • więcej

RSS

  • Wykopane
  • Wykopalisko
  • Komentowane
  • Ustawienia prywatności

Regulamin

Reklama

Kontakt

O nas

FAQ

Osiągnięcia

Ranking