Kopírování textu s diakritikou z pdf (copy-paste)

vaclavk · srpen 12, 2023, 4:04am

Dobrý den,

pokouším se zkopírovat (copy-paste) text z pdf (zobrazuji přes Evince) směrem ven (Libre Office, textový soubor či kamkoliv). Kopírovat to jde, ale některé české znaky se zkopírují špatně. Nejblíže cíli je kodování UTF-8. Ze slova nekonečně mi to udělá nekoneþnČ.

V dokumentu pdf mám dva typy fontů:

Encoding: WinAnsi, Embeded subset

Encoding: Indentity-H, Embeded

Zná někdo jednoduchý způsob jak zkopírovat text správně i diakritikou?

covex · srpen 16, 2023, 3:57pm

No to je takova lapalie - nektere PDF totiz jsou obrazek, a nad nim je neviditelna vrstva textu jako kdyz to prozenes OCR a to OCR to blbe rozpozna a vzniknou z toho nesmysly. Tzn. podle me to je blbe uz v te textove vrstve - kdyz to oznacis v evince je to jeste spravne nebo uz pri oznaceni blbe?

vaclavk · srpen 16, 2023, 6:22pm

Označení funguje správně. Je to cca 400kB a 58 stran, nezdá se mi, že by se to tam vešlo jako obrázek.

covex · srpen 17, 2023, 5:22am

PDF muze byt vektorove + text overlay, tezko rict. Kazdopadne pokud se to znaci a v oznacenem textu je to spravne, tak tam spis problem nebude. Kdyz se podivas do properties a fonts, co tam je u tech fontu za kodovani? Jsou fonty embedded v pdf? Zkousel si to pastenout do obyc textoveho editoru a kouknout na to treba v hexa, pripadne zkusit iconv zda se z toho bude dat vyrobit nejakou konverzi spravny vysledek?

vaclavk · září 1, 2023, 7:27am

Asi to nepůjde vyřešit (snadno). Kódovaní uvádím v prvním příspěvku. Pokusy o různé konverze, většinou je to naopak horší(oproti UTF-8). Tuším, že možná existuje speciální prográmek pro takové situace, ale to je vše.