OCR

Zdar a silu
mate nekdo prehled jak to momentalne vypada s OCR v linuxu?
Texty v anglictine / texty v cestine.
Linux vubec / Fedora
Co pouzivate?
Clanky co jsem nasel jsou tak 2 roky stary a situace se mohla znacne zmenit.
Predem dik za reakce

O OCR toho moc nevím, ale od verze 16 je ve Fedoře Cuneiform, což je commandlajnový nástroj na OCR. Na něm je postavený grafický nástroj YAGF. Můžeš vyzkoušet tady tyto dva. Osobní zkušenosti s tím ale nemám.

Milí přátelé,
co se OCR týká, přijde mi to trošku jako Colombova manželka. Linux, jako jediný systém, používám už 15 let, teď jsem se, na starý kolena, nechal zaměstnat ve státním podniku, kde Ministerstvo financí IMHO přikazuje (IMHO tedy protizákonně) používat Widle, takže se, proti srsti, znova učím používat nepoužitelné.
S OCR je to tam (což jsem marně doufal, že bude o krok dál) opět - Colombova manželka. Tam se dokument (i sto stran) se vytiskne, na poslední stránku se podepíše kompetentní osoba, prožene se to zpátky scannerem a uloží do složek. Grrr.
Přitom zákon 106/1999Sb. (rok 1999!!!) nám u dokumentů přikazuje “strojovou čitelnost”; porušujeme tedy zákon (a víc to žere místo na discích). Nejsme sami, je to velmi rozšířený nešvar. Někdy se do složky přikládá i *.doc, aspoň že tak.
Otázka - hnuly se, za těch 8let od vložení tohoto vlákna v OCR pod Linuxem ledy? Je něco, co byste doporučili a jaká je s takovým nástrojem “best practice”?

Zkusil jsem Jiřím postnutý YAGF, ale chová se nějak ne úplně příčetně, navíc on-line podpora je od společnosti Symmetrica.net , což jsou nějací (asi) výrobci hracích automatů a to moc důvěry nedává.
Lokalizaci cze taky nemá, není se co divit. Od geronta mého typu palec dolů, zavrtanej do země :wink: .
Vím, že A. Hakl dělal kdysi dávno na OCR pro kamery na silnicích pro rozpoznávání registračních značek, tam to bezesporu funguje, pokuty choděj :slight_smile: . Ale jináč?
Ď Pep

To spojení YAGF a Symmetricy bude asi nějaká mýlka. Každopádně to je projekt, který už se 5 let nevyvíjí, takže ho asi nemá smysl používat.

Můžeš zkusit Paperwork, což je nástroj na skenování a organizaci dokumentů a umí i OCR.
Případně na Flathubu je k dispozici OCRFeeder. Je tam i proprietární Master PDF Editor, který OCR umí taky.

Ja pouzivam vice-mene uspesne gscan2pdf a v nem je OCR - pred casem se to i nejak konfigurovalo ted to tam nevidim, ale myslim ze to proste fungovalo/je. Skenovani starych manualu sice nebylo uplne OK, le v zasade to fugovalo (aspon se dokument dal prohledavat).