Nástroje pro úpravu obsahu DjVu souborů

From DCEwiki
Revision as of 10:40, 17 January 2018 by Keny (talk | contribs) (Komerční produkty)
Jump to: navigation, search

Na základě empirického srovnávání konverzních výsledků komerční aplikace Document Express a opensource nástrojů z DjVuLibre, lze konstatovat, že u kvalitních předloh, skenovaných na kvalitním skeneru lze s komerčním nástrojem dosáhnout mnohem lepší výsledek. A to jak z hlediska kompresního poměru, tak i pokud jde o kvalitu OCR.

Naopak u předloh velice špatné kvality byl lepší výsledek spíše na straně opensource nástrojů. Navíc na straně opensource je jeden velice důležitý trumf - skutečný editor skryté textové vrstvy djvusmooth kterým lze provést korekturu výsledku OCR.

Djvusmooth

http://jwilk.net/software/djvusmooth

Je opensource editor DjVu dokumentů, jehož autorem (stejně jako ocrodjvu je Jakub Wilk.

Jde v podstatě o grafickou nadstavbu k jeho pythonovského modulu pro práci s DjVu, která je určena pro práci s metainformacemi a již existující skrytou textovou vrstvou..

Plusy
- umožňuje vytvářet a editovat záložky obsahu (outline)
- umožňuje vkládat hyperlinky a metainformace
- umožňuje editovat skrytou textovou vrstvu a měnit umístění a rozměry všech prvků textové vrstvy
- Pro OCR lze nastavit použitý jazyk a funguje docela dobře
Mínusy
- pouze v omezené míře umožňuje přidávat a odstraňovat nové prvky ve skryté textové vrstvě
- neumí prvky ve skryté textové vrstvě přesouvat

Aplikace je stále v aktivním vývoji

Djvusmooth 0.2.7.png

Ocrodjvu

http://jwilk.net/software/ocrodjvu

Je ve své podstatě konzolová nadstavba pro aplikaci OCR na DjVu dokumenty. Jako engine může používat buď Tesseract, nebo Cuneiform.

Zatím co ocrodjvu je samostatná konzolová aplikace, komerční nástroje pro zpracování DjVu obvykle pracují přímo s OCR aplikací třetích stran, kterou si nesou sebou. Výhodou ocrodjvu je že umožňuje zvolit která aplikace se má na OCR použít. Např.při použití cuneiform u stránky s českým textem lze dosáhnout mnohem lepšího výsledku, než komerčního produktu.

Také vhodnou volbou parametrů a úpravou zpracování vstupního dokumentu, lze dosáhnout kvalitnějšího výsledku OCR

Příklad aplikace ocrodjvu na DjVu dokument najdete jako přílohu. Pro porovnání je uveden výsledek OCR u aplikace Document Express.

Výstup z ocrodjvu byl upraven tím že odstavce byly zalomeny na řádky, pro větší přehlednost.

ocrodjvu Document Express
Mat/ic Icosa/tec/ran
!icet'b
IV/ KOMBINATOR ICKÉ HLAVOLAMY
5/ PLATONOVA TĚLESA A HRAČKY FIRMY PYRAMINX
ce těchto hraček je však velmi obtížné provádět, pokud hračky samy nejsou k dispozi-
 ci. Jako u Rubikovy kostky, i zde je potřeba si trochu zaexperimentovat, abychom na-
 lezli užitečné postupy.
Řekli jsme, že všechna Platónova tělesa byla vvužita ke konstrukci těchto hraček.
 Kdepak tedy márne ikosaedr?, zeptáte se zcela oprávněně. Ten je šikovně zamaskován
 do tvaru koule s názvern „Incredi Ball" — tedy neuvěřitelnÝ míč. Hračka je to krásná,
 ale víte-li si rady s dodekaedÍ ickou íílohou na Megaminxu, zvládnete ji okamžitě. In-
 credi Ball je totiž k IVIegaminxu ve stejnétn vztahu, jako minikostka ke klasické kostce.
 Trojůhelníky, ze kterúch se tato hračka skládá, se totiž při otáčení pohybují stejně jako
 rohové kostičky Megantinxu a navíc nemáte žátlné starosti s hranovými kostičkamL
 Na těchto příkladech vzájemných vztahů jednotlivúch hraček je vidět, že má smysl Še
 jimi zabúvat hlouběji jako celkem.
Scewb
Magic /cosahedron
ce těchto hraček je však velmi obtížné provádět, pokud hračky samy nejsou k dispozi-
ci. Jako u Rubikovy kostky, i zde je potřeba si trochu zaexperimentovat, abychom na-
lezli užitečné postupy.
Í{.ekli jsme, že všechna Platónova tělesa byla využita ke konstrukci těchto hraček
Kdepak tedy máme ikosaedr?, zeptáte se zcela oprávněně. Ten je šikovně zamask()Ván
do tvaru koule s názvem ..Incredi Bali" - tedy neuvěřitelný míč. Hračka je to krásná,
ale víte-li si rady s dodekaedrickou úlohou na Megaminxu, zvládnete ji okamžitě. In-
credi Bali je totiž k Megaminxu ve stejném vztahu, jako minikostka ke klasické kostce.
Trojúhelníky, ze kterých se tato hračka skládá, se totiž při otáčení pohybují stejně jako
rohové kostičky Megaminxu a navíc nemáte žádné starosti s hranovými kostičk mi.
Na těchto příkladech vzájemných vztahů jednotlivých hraček je vidět, že má smysl s
jimi zabývat hlouběji jako celkem.
lVI KOMBINATORICKÉ HLAVOLAMY
51 PLATONOVA Ti:LESA A HRACKY FIRMY PYRAMINX
209

Rozdíly:

  • ocrodjvu se pokusí rozpoznat nejenom řádky, ale také odstavce (Document express pracuje pouze s řádky)
  • ocrodjvu při rozpoznávání pravděpodobně primárně postupuje zleva doprava. Proto je text záhlaví umístěn před vlastním obsahem.
  • pokud jde o chyby při rozpoznávání, je výsledek tak 50:50

Komerční produkty

Komerční produkty oproti opensource produkují lepší výsledky z hlediska kompresního poměru. Je to dáno tím, že obsahují další algoritmy, které podle charakteru dokumentu volí optimální parametry pro vlastní kompresi.

Velmi přitom záleží na kvalitě vstupního souboru. Čím kvalitnější předloha, tím lepší výsledek poskytne komerční produkt.


Poznámka Protože další vývoj i podpora všech komerčních aplikací pro práci se soubory DjVu formátu skončila zhruba rokem 2010, jsou na stránce ke komerčnímu DjVu/software k dispozici také linky k jejich stažení z archivu pro studijní účely.

DjVuSolo 3.1

Poslední verzi této aplikace, která je pouze pro MS Windows uvolnila fa. Lizzardtech k volnému použití, protože její vývoj byl ukončen a začal místo ní nabízet DjVu Document Express Editor.

Aplikace umožňuje:

  • konvertovat do DjVu (verze 24) obrázky z formátu bmp, jpeg, tiff, pict, pbm, pnm, ppm, pgm
  • spojovat a rozdělovat DjVu dokumenty
  • vytvářet hyperlinky v grafickém prostředí
  • generovat náhledy stránek

Plusy - aplikace funguje bez problémů také pod wine

Mínusy - neumožňuje práci s textovými vrstvami - hledání textu, atp. - nepracuje s metainformacemi - nezobrazuje rejstřík

DjVu Solo 3.1.png

Upozornění DjVu dokumenty které produkuje komerční DjVu Document Express ( a ty co jsou prezentovány jako DjVu verze 25 a vyšší ), neumí DjVuSolo otevřít!

Dokumenty, které jsou vytvořené pomocí open source nástrojů z DjVuLibre sice s prskáním otevře, ale jelikož neumí pracovat se skrytou textovou vrstvou, metainformacemi, ani záložkami, může dojít při přepsání původních souborů ke ztrátě informací v nich uložených!

DjVu Document Express

http://www.lizardtech.com/

Je komerční sada nástrojů společnosti LizardTech. Její součástí je editor DjVu dokumentů který nahradil DjVuSolo. Má sice omezené možnosti editace zdrojového textu - umožňuje na něj pouze pasivně aplikovat OCR, umožňuje ale práci s poznámkami, metainformacemi a hyperlinky.

Document Express Editor 5.0.0 build 16 
již je sice zastaralý, bohužel novější verzi se mi nepodařilo nainstalovat, byť má jít o trial.
Plusy
- funguje bez problémů také pod WINE
- lze pracovat také s hyperlinky typu polygon
- Pro OCR lze nastavit použitý jazyk a funguje docela dobře
Mínusy
- neumožňuje hledání v textu
- nepracuje s metainformacemi
- OCR je možné aplikovat pouze na celou stránku

Document Express 6.5 Desktop.png

Nástroje pro dávkové zpracování

Document Express 7.5 Enterprise

Document Express 7.5 Enterprise.png