Difference between revisions of "Textová vrstva DjVu dokumentu"

From DCEwiki
Jump to: navigation, search
m
m
 
Line 2: Line 2:
 
[[Anatomie DjVu dokumentu]] | [[Metadatová vrstva DjVu dokumentu]] |
 
[[Anatomie DjVu dokumentu]] | [[Metadatová vrstva DjVu dokumentu]] |
 
}}[[Kategorie:DjVu]]</noinclude><includeonly>== Textová vrstva DjVu dokumentu ==</includeonly>
 
}}[[Kategorie:DjVu]]</noinclude><includeonly>== Textová vrstva DjVu dokumentu ==</includeonly>
Práce s textem v djvu dokumentech mi přišla poněkud nepohodlná, je to ale do značné míry dáno tím, že prozatím neexistuje žádné GUI, které by to usnadnilo vizuální orientaci při editaci textu. Možná by bylo řešením dopsat plugin do aplikace Scribus, nebo rozšířit možnosti [[djview (DjVuLibre)|djview]]. Nicméně práce na příkazové řádce je docela použitelná a efektivní - pokud člověk ví co a jak.
+
U DjVu formátu se pracuje s několika typy textových informací, z nichž každá používá svůj vlastní typ vrstvy. Pro uložení skrytého textového obsahu stránky (''Hidden text''), se používá vrstva '''TXTz''' – komprimovaná textová vrstva, se kterou lze (podobně jako s metadaty) pracovat pomocí utility [[djvused (DjVuLibre)|djvused]].
  
Textová vrstva pracuje se třemi typy textových informací
+
Pokud skrytá textová vrstva obsahuje nějaký text, pak se můžete při výpisu setkat s těmito prvky:
Hidden text
 
Annotation
 
 
 
 
 
Při vypsání textu přes [[djvused (DjVuLibre)|djvused]] se můžete setkat s těmito prvky:
 
  
 
;page : je přítomen vždy a vymezuje obsah stránky
 
;page : je přítomen vždy a vymezuje obsah stránky
Line 18: Line 13:
 
:::::;word : nejmenší prvek obsahující samotný text
 
:::::;word : nejmenší prvek obsahující samotný text
  
''Souřadnice'' - Každý z těchto prvků má uvedeny souřadnice levého horního rohua a pravého dolního rohu, jimiž je vymezena jeho pozice vůči stránce. V případě že je obsažen pouze jediný prvek přebírá nadřazený prvek souřadnice podřízeného prvku. Jinak platí že:
+
''Souřadnice'' - Každý z těchto prvků má uvedeny souřadnice levého horního rohu a pravého dolního rohu, jimiž je vymezena jeho pozice vůči stránce. V případě že je obsažen pouze jediný prvek přebírá nadřazený prvek souřadnice podřízeného prvku. Jinak platí že:
  
 
* leftmin - nejnižší leftmin ze všech podřízených prvků  
 
* leftmin - nejnižší leftmin ze všech podřízených prvků  
Line 24: Line 19:
 
* leftmax - nejvyšší ze všech podřízených prvků
 
* leftmax - nejvyšší ze všech podřízených prvků
 
* topmax - nejvyšší ze všech podřízených prvků
 
* topmax - nejvyšší ze všech podřízených prvků
 +
 +
=== Vytvoření skryté textové vrstvy pomocí OCR ===
 +
Pro získání textu z obrazové vrstvy pomocí OCR vytvořil Jakub Wilk<ref>Jakub Wilk naprogramoval rovněž [[djvusmooth]], [[pdf2djvu]] a konverzní nástroj [[didjvu]]</ref> vynikající opensource nástroj [[ocrodjvu]], který pro rozpoznávání umožňuje vybrat jeden ze dvou OCR nástrojů:
 +
 +
; cuneiform : rychlý OCR engine, ruské provenience. Při rozpoznávání českého či slovenského textu poskytuje v některých případech lepší výsledky než tesseract.
 +
nebo
 +
; tesseract : se neustále intenzivně vyvíjí a má širokou podporu nejrůznějších jazyků a slovníků
 +
 +
=== Výpis textové vrstvy ===
 +
Pro výpis textové vrstvy se používá utilita [[djvutxt (DjVuLibre) | djvutxt]]
 +
 +
=== Korektury skryté textové vrstvy ===
 +
Korektura skryté textové vrstvy v DjVu dokumentech byla dlouhou dobu dost nepohodlná. Bylo to do značné míry dáno tím, že neexistovalo vhodné GUI, které by to usnadnilo vizuální orientaci při editaci textu.
 +
 +
Vůbec první aplikací, která umožnila alespoň úpravy pozice a změnu velikosti jednotlivých prvků v rámci textové vrstvy, byl [[djvusmooth]]. Nicméně v současné době existuje mnohem lepší editor textové vrstvy, který pracuje s textovým obsahem vyexportovaným do DjVuXML formátu spřes utilitu [[djvutoxml]], založený na javascriptu – [http://sourceforge.net/projects/webdjvutexted WebDjVuTextEd]
  
 
<noinclude><references /></noinclude>
 
<noinclude><references /></noinclude>

Latest revision as of 12:35, 18 December 2017

U DjVu formátu se pracuje s několika typy textových informací, z nichž každá používá svůj vlastní typ vrstvy. Pro uložení skrytého textového obsahu stránky (Hidden text), se používá vrstva TXTz – komprimovaná textová vrstva, se kterou lze (podobně jako s metadaty) pracovat pomocí utility djvused.

Pokud skrytá textová vrstva obsahuje nějaký text, pak se můžete při výpisu setkat s těmito prvky:

page 
je přítomen vždy a vymezuje obsah stránky
column 
sloupec - vyskytuje se v dokumentech co mají text stránek uspořádaný do sloupců
region 
oblast?
para 
odstavec
line 
řádek
word 
nejmenší prvek obsahující samotný text

Souřadnice - Každý z těchto prvků má uvedeny souřadnice levého horního rohu a pravého dolního rohu, jimiž je vymezena jeho pozice vůči stránce. V případě že je obsažen pouze jediný prvek přebírá nadřazený prvek souřadnice podřízeného prvku. Jinak platí že:

  • leftmin - nejnižší leftmin ze všech podřízených prvků
  • topmin - nejnižší topmin ze všech podřízených prvků
  • leftmax - nejvyšší ze všech podřízených prvků
  • topmax - nejvyšší ze všech podřízených prvků

Vytvoření skryté textové vrstvy pomocí OCR[edit]

Pro získání textu z obrazové vrstvy pomocí OCR vytvořil Jakub Wilk[1] vynikající opensource nástroj ocrodjvu, který pro rozpoznávání umožňuje vybrat jeden ze dvou OCR nástrojů:

cuneiform 
rychlý OCR engine, ruské provenience. Při rozpoznávání českého či slovenského textu poskytuje v některých případech lepší výsledky než tesseract.

nebo

tesseract 
se neustále intenzivně vyvíjí a má širokou podporu nejrůznějších jazyků a slovníků

Výpis textové vrstvy[edit]

Pro výpis textové vrstvy se používá utilita djvutxt

Korektury skryté textové vrstvy[edit]

Korektura skryté textové vrstvy v DjVu dokumentech byla dlouhou dobu dost nepohodlná. Bylo to do značné míry dáno tím, že neexistovalo vhodné GUI, které by to usnadnilo vizuální orientaci při editaci textu.

Vůbec první aplikací, která umožnila alespoň úpravy pozice a změnu velikosti jednotlivých prvků v rámci textové vrstvy, byl djvusmooth. Nicméně v současné době existuje mnohem lepší editor textové vrstvy, který pracuje s textovým obsahem vyexportovaným do DjVuXML formátu spřes utilitu djvutoxml, založený na javascriptu – WebDjVuTextEd

  1. Jakub Wilk naprogramoval rovněž djvusmooth, pdf2djvu a konverzní nástroj didjvu