DjVu - formát pro elektronickou archivaci dokumentů

Z DCEwiki
Skočit na navigaci Skočit na vyhledávání

Formát DjVu je podobně jako PDF určen pro elektronickou konzervaci dokumentů. Mezi jeho silné zbraně patří:

  • Komprimace obrazových vrstev wavelet kompresí - tím DjVu dosahuje dobrého poměru mezi čitelností dokumentu a celkovým objemem uložených dat.
  • Bezproblémové slučování a rozdělování jednotlivých stránek (dokumentů), přičemž každý dokument ba i každá extrahovaná vrstva může existovat jako samostatný dokument.
  • Obrazové a textové informace umístěné v oddělených vrstvách. Každá stránka DjVu dokumentu má svou vlastní editovatelnou textovou vrstvu, kterou lze fulltextově prohledávat a indexovat. Obsah do této vrstvy lze doplnit manuálně: pomocí editačního nástroje djvused, nebo s využitím javascriptového editoru a utility djvuxmlparser.
  • Textovou vrstvu umí v DjVu souboru vytvořit také linuxový nástroj ocrodjvu, který pro rozpoznávání textu pomocí OCR použije černobílou vrstvu dokumentu.
  • Skrytá textová vrstva také může obsahovat řadu dalších informací, díky nimž pak lze ověřit zda nedošlo k dodatečné úpravě některé z vrstev originálního dokumentu.

Tyto vlastnosti přímo předurčují formát DjVu k archivaci tiskovin a listin, neboť umožňují naskenované dokumenty zredukovat na přijatelnou velikost, aniž by tím nějak výrazně utrpěla jejich čitelnost. U takto „zakonzervovaných“ dokumentů zůstává zachováno vše, co bylo na originálu (např. nejrůznější vpisky, otisky atp.), a přitom s nimi dále pracovat. Skrytá textová vrstva navíc dává možnost doplnit indexovatelný obsah zvláště u dokumentů psaných rukopisem či znakovým písmem. Díky tomu je tento formát velmi výhodný pro publikování archivovaných materiálů prostřednictvím internetu.