djvutxt (DjVuLibre)

Z DCEwiki
Skočit na navigaci Skočit na vyhledávání

Název

djvutxt - je konzolový nástroj pro rychlou extrakci skryté textové vrstvy

Použití

djvutxt [volby] djvusoubor [výstup]

Popis

Utilita djvutext je určena pro výpis textového obsahu vícestránkových djvu dokumentů. Ten lze buď ukládat do souboru, nebo rourou předávat k dalšímu zpracování. Volbami lze pak ovlivnit kódování textu ve výstupu a to, zda bude vypsán čistý text, nebo vybrané oblasti včetně souřadnic.

Volby

--page=<rozsah>

Nastavením rozsahu lze vymezit stránky se kterými se má pracovat. Stránky jsou určeny pořadovým číslem a odděleny čárkou ('1,3,5). Pokud má být zpracován souvislejší rozsah stránek, pak je mezi pořadovými čísly místo čárky pomlčka (6-10). Pořadí zpracování stránek lze obrátit tím, že se rozsah uvede v obráceném pořadí, tedy 10-1, bude zpracovávat stránky od desáté k první.

--detail=[page|column|region|para|line|word|char]

Není-li uveden žádný jiný --detail, automaticky se předpokládá že se mají vypsat znaky, bez specifikace oblasti. Tudíž výsledek je stejný jako by bylo pro detail uvedeno klíčové slovo char. V ostatních případech se kromě textu vypíše v S-syntaxi i vymezení příslušné oblasti

--escape

Tímto parametrem lze ovlivnit výstup, jak mají být zobrazovány netisknutelné znaky, které jsou ve výchozím stavu uloženy jako UTF-8

Příklady

Nástroj lze využít při rychlém vyhledávání v uložených dokumentech. V následujícím příkladu mne zajímá, kde a v jakém kontextu se vyskytuje slovo Otehipwe v rosettaproject_ciw_book-3.djvu. Nejprve zkusím zjistit, jestli se zde vůbec toto


user@stroj:~$ djvutxt --detail=word rosettaproject_ciw_book-3.djvu | grep Otehipwe

         (word 148 960 429 1026 "Otehipwe") 
         (word 1450 128 1728 198 "Otehipwe")