DjVu versus PDF

Z DCEwiki
Skočit na navigaci Skočit na vyhledávání

Formát DjVu byl navržen pro sdílení dokumentů v elektronické podobě skrz internetovou síť. To je základní rozdíl oproti formátu PDF[1], který vytvořila firma Adobe Systems proto, aby zajistila že dokument, vytvořený s využitím jejich produktů, vypadal po vytištění vždy stejně[2] - bez ohledu na to, na které platformě byl vytvořen. U PDF (Portable Document Format), tedy nebyla směrodatná velikost elektronického dokumentu, ale jeho přenositelnost.

Pro zobrazení a následný tisk PDF nabízelo Adobe software ke stažení zdarma. Specifikace byla otevřená, takže k jejich software mohly vznikat i otevřené alternativy. Podstatný byl fakt, že dokument uložený v PDF formátu lze jen v omezené míře upravovat, takže se tento formát hojně využíval pro dodávanou elektronickou dokumentaci k software jiných firem.

Čím se liší PDF od DjVu?

Základem PDF formátu je postscript - jazyk, kterým umí komunikovat počítač s tiskárnou. Proto má PDF - podobně jako postscript - lineární zápis i čtení. Prohlížečka ze souboru postupně načítá a vykresluje jednotlivé objekty, specifikované pomocí atributů a souřadnic. Objektem může být:

  • postscriptový obrazec
  • formátovaný text
  • nebo bitmapový obrázek

Pokud PDF obsahuje pouze kolekci postscriptových ilustrací a formátovaný text, je výsledný soubor poměrně malý a vyrenderování obrazu rychlé. Prohlížečka vykreslí obrázky a ke zobrazení textu použije předepsanou znakovou sadu (font). Takový dokument může být dokonce mnohem menší a vizuálně kvalitnější než DjVu dokument se stejným obsahem. PDF soubor totiž obsahuje v postatě to samé, co počítač při tisku posílá na tiskárnu.

Jenže font, použitý v takovém PDF souboru nemusí být k dispozici na každém počítači. Proto PDF od verze 1.3 umožňuje textový obsah uložit několika různými způsoby:

  • formátovaný text + použitý font[3] - v takovém případě však má každý takový PDF soubor v sobě uloženy kopie všech použitých fontů.
  • jednotlivá písmena textu jako postscriptové obrázky - to může být výhodné, pokud dokument používá hodně fontů a má hodně textu.
  • celá stránka jako postscriptový obrázek - se vyplatí pokud je na stránce málo textu, ale mnoho různých fontů

Pokud PDF obsahuje textový obsah ve formě bitmapového obrázku[4], jeho objem naroste. Každý obrázek je v PDF uložen jako samostatný objekt - včetně formátu. Do r. 2001 bylo možné použít buď TIFF, GIF nebo ztrátový JPEG. Bitmapový obrázek se do PDF souboru ukládá v takovém rozlišení, které odpovídá cílovému určení dokumentu. Čím má vyšší dpi (počet bodů na palec) tím víc detailů se při tisku zachová. Ovšem objem uložených dat s vyšším dpi kvadraticky stoupá.

Lidské oko je schopné rozeznat detaily zhruba v rozmezí od 300 do 600 dpi. Takže dokumenty, určené k tisku by měly mít uloženy obrázky nejméně v rozlišení 300dpi. Je-li však PDF dokument určen pouze ke čtení na monitoru, je tak velké rozlišení zbytečné. Do nedávna totiž většina monitorů ani nebyla schopna víc než 100 dpi vůbec zobrazit.

Takže i když na první pohled vypadá stránka PDF souboru v prohlížečce stejně, může se jeho vnitřní struktura značně lišit - v závislosti na tom, pro jaký účel byl dokument vytvořen.

U archivních dokumentů, které tvoří prakticky výhradně naskenované stránky, dnes nabízí PDF v podstatě totéž co DjVu, ovšem s tím rozdílem, že soubor se stejným obsahem je mnohonásobně větší a jeho zpracování v prohlížečce pomalejší.

Proč je DjVu pro práci s archivními dokumenty lepší

U vícestránkového DjVu dokumentu je každá stránka samostatný objekt, který je složen z několika vrstev dalších objektů - viditelný obraz vzniká až jejich sloučením:

  • Základem je obrazová vrstva (složená z několika dalších vrstev) - ta je přítomna vždy.
  • Kromě ní může být v dokumentu i textová vrstva s metadaty, hyperlinky, skrytým textem obsahu stránky a poznámkami.

Dokument zpracovaný do DjVu formátu bude vždy menší než v PDF, protože neexistuje takový algoritmus pro uložení bitmapového obrázku, který by dokázal skloubit:

  • rychlou dekompresi uložených dat
  • vysoký kompresní poměr
  • nízké zatížení procesoru v průběhu dekomprese
  • minimálně obsazenou pamě%t

Obrazový formát JPEG2000, který využívá stejně jako DjVu wavelet kompresi, sice dovoluje vysoký kompresní poměr, bohužel je při dekompresi velmi náročný na výkon procesoru. Takže se jednotlivé stránky vykreslují na méně výkonnýchh zařízeních velmi pomalu. Je to proto, že se pracuje s celým bitmapovým obrázkem ve velkém rozlišení.

Naproti tomu obrazová vrstva DjVu je složena z několika barevných vrstev. Z nichž každou tvoří shluky skvrn komprimovaných wavelet kompresí. Takové shluky se dají matematicky popsat, takže je lze lépe komprimovat. A i když se některé drobné artefakty z obrazu vytratí, obsahová informace zůstane zachovaná. Díky tomu, že jsou barevné skvrny popsané jako křivky, není problém s rychlým vykreslením obrazu i pokud má být obrazová vrstva zvětšena.

DjVu principiálně vychází z toho, že u archivního dokumentu nás většinou víc zajímá informace, kterou nese text, než jak vypadá struktura a zažloutlé okraje papíru, na kterém je napsaný. Při konverzi do DjVu formátu je nutné počítat s tím, že se při tom některé obrazové informace ztratí, proto je občas třeba zvolit optimální způsob konverze. Ale o tom více v kapitole věnované konverzi do DjVu.

  1. První verze PDF formátu se objevila v roce 1993, tedy o tři roky dříve, než začal vývoj DjVu ve firmě AT&T Laboratories.
  2. Fa. Adobe Systems vyvíjela software jak pro Mac OS X, tak MS Windows ale u každého z nich se tisk řešil jiným způsobem. U Apple šli cestou lokálního tiskového serveru CUPS, který se dnes používá i u jiných unixových systémů. U Microsoftu závisela výsledná podoba tisku na konstelaci lokální instalace - dostupných fontech, aplikaci a ovladači tiskárny.
  3. Verze 1.3 (z r. 2000) pracovala pouze s CID fonty. TrueType a OpenType fonty podporuje PDF až od verze 1.6, uvedené v r. 2004
  4. Takový PDF dokument se již nedá znovu editovat, a pokud nemá skrytou textovou vrstvu, ani prohledávat. Skrytá textová vrstva, jako má DjVu, byla do specifikace PDF zahrnuta až od rozšířené verze 1.7 v r. 2008.