DjVu - formát pro elektronickou archivaci dokumentů

From DCEwiki
Jump to: navigation, search

Formát DjVu je podobně jako PDF určen pro elektronickou konzervaci dokumentů. Mezi jeho silné zbraně patří:

Komprimace obrazových vrstev wavelet kompresí 
Použtím wavelet komprese DjVu dosahuje velmi dobrého poměru mezi čitelností dokumentu a celkovým objemem uložených dat.
Bezproblémové slučování a rozdělování jednotlivých stránek (dokumentů) 
Každý dokument ba i každá jeho extrahovaná vrstva může existovat v rámci svazku jako samostatný dokument.
Obrazové a textové informace umístěné v oddělených vrstvách 
Každá stránka DjVu dokumentu může mít svou vlastní skrytou editovatelnou textovou vrstvu s informacemi, které lze fulltextově prohledávat, indexovat i pomocí editačních nástrojů upravovat. Textovou vrstvu lze získat i aplikování OCR na černobílou obrazovou vrstvu dokumentu.
Skrytá textová vrstva také může obsahovat řadu dalších informací 
Mohou to být kontrolní součty obrazových vrstev, takže pak lze ověřit zda nedošlo k jejich dodatečné úpravě, nebo informace o původu a zpracování originálního dokumentu, aj.

Tyto vlastnosti formát DjVu předurčují k archivaci tiskovin a listin do elektronické podoboby, neboť dovolují naskenované dokumenty redukovat na přijatelnou velikost, aniž by tím výrazně utrpěla obrazová informace. Proto je tento formát velmi výhodný pro publikování archivovaných materiálů prostřednictvím internetu[1]. Je-li konverze dokumentu kvalitně provedena, zůstane zachováno vše, co bylo vidět na originálu (např. nejrůznější vpisky, otisky atp.). S dokumentem pak lze dále pracovat, aniž by bylo nutné ho mít fyzicky v ruce.

Skrytá textová vrstva navíc dovoluje k dokumentu přidat indexovatelný obsah - kupř. překlad, nebo přepis jeho obsahu. Toho lze využít obzvláště u dokumentů psaných rukopisem či znakovým písmem. Díky tomu pak lze fulltextově prohledávat i takové dokumenty.

  1. Pracuje s ním kupř. internetový archív http://www.archive.org