pokouším se zkopírovat (copy-paste) text z pdf (zobrazuji přes Evince) směrem ven (Libre Office, textový soubor či kamkoliv). Kopírovat to jde, ale některé české znaky se zkopírují špatně. Nejblíže cíli je kodování UTF-8. Ze slova nekonečně mi to udělá nekoneþnČ.
V dokumentu pdf mám dva typy fontů:
Encoding: WinAnsi, Embeded subset
Encoding: Indentity-H, Embeded
Zná někdo jednoduchý způsob jak zkopírovat text správně i diakritikou?
No to je takova lapalie - nektere PDF totiz jsou obrazek, a nad nim je neviditelna vrstva textu jako kdyz to prozenes OCR a to OCR to blbe rozpozna a vzniknou z toho nesmysly. Tzn. podle me to je blbe uz v te textove vrstve - kdyz to oznacis v evince je to jeste spravne nebo uz pri oznaceni blbe?
PDF muze byt vektorove + text overlay, tezko rict. Kazdopadne pokud se to znaci a v oznacenem textu je to spravne, tak tam spis problem nebude. Kdyz se podivas do properties a fonts, co tam je u tech fontu za kodovani? Jsou fonty embedded v pdf? Zkousel si to pastenout do obyc textoveho editoru a kouknout na to treba v hexa, pripadne zkusit iconv zda se z toho bude dat vyrobit nejakou konverzi spravny vysledek?
Asi to nepůjde vyřešit (snadno). Kódovaní uvádím v prvním příspěvku. Pokusy o různé konverze, většinou je to naopak horší(oproti UTF-8). Tuším, že možná existuje speciální prográmek pro takové situace, ale to je vše.