Textová vrstva DjVu dokumentu

From DCEwiki
Jump to: navigation, search

U DjVu formátu se pracuje s několika typy textových informací, z nichž každá používá svůj vlastní typ vrstvy. Pro uložení skrytého textového obsahu stránky (Hidden text), se používá vrstva TXTz – komprimovaná textová vrstva, se kterou lze (podobně jako s metadaty) pracovat pomocí utility djvused.

Pokud skrytá textová vrstva obsahuje nějaký text, pak se můžete při výpisu setkat s těmito prvky:

page 
je přítomen vždy a vymezuje obsah stránky
column 
sloupec - vyskytuje se v dokumentech co mají text stránek uspořádaný do sloupců
region 
oblast?
para 
odstavec
line 
řádek
word 
nejmenší prvek obsahující samotný text

Souřadnice - Každý z těchto prvků má uvedeny souřadnice levého horního rohu a pravého dolního rohu, jimiž je vymezena jeho pozice vůči stránce. V případě že je obsažen pouze jediný prvek přebírá nadřazený prvek souřadnice podřízeného prvku. Jinak platí že:

  • leftmin - nejnižší leftmin ze všech podřízených prvků
  • topmin - nejnižší topmin ze všech podřízených prvků
  • leftmax - nejvyšší ze všech podřízených prvků
  • topmax - nejvyšší ze všech podřízených prvků

Vytvoření skryté textové vrstvy pomocí OCR[edit]

Pro získání textu z obrazové vrstvy pomocí OCR vytvořil Jakub Wilk[1] vynikající opensource nástroj ocrodjvu, který pro rozpoznávání umožňuje vybrat jeden ze dvou OCR nástrojů:

cuneiform 
rychlý OCR engine, ruské provenience. Při rozpoznávání českého či slovenského textu poskytuje v některých případech lepší výsledky než tesseract.

nebo

tesseract 
se neustále intenzivně vyvíjí a má širokou podporu nejrůznějších jazyků a slovníků

Výpis textové vrstvy[edit]

Pro výpis textové vrstvy se používá utilita djvutxt

Korektury skryté textové vrstvy[edit]

Korektura skryté textové vrstvy v DjVu dokumentech byla dlouhou dobu dost nepohodlná. Bylo to do značné míry dáno tím, že neexistovalo vhodné GUI, které by to usnadnilo vizuální orientaci při editaci textu.

Vůbec první aplikací, která umožnila alespoň úpravy pozice a změnu velikosti jednotlivých prvků v rámci textové vrstvy, byl djvusmooth. Nicméně v současné době existuje mnohem lepší editor textové vrstvy, který pracuje s textovým obsahem vyexportovaným do DjVuXML formátu spřes utilitu djvutoxml, založený na javascriptu – WebDjVuTextEd

  1. Jakub Wilk naprogramoval rovněž djvusmooth, pdf2djvu a konverzní nástroj didjvu