Digitální zpřístupnění knihovních sbírek
Počátky digitalizačních aktivit v Národní knihovně České republiky se ve spolupráci se současnou firmou AIP Beroun datují až do roku 1992, kdy byl uzavřen kontrakt s UNESCO o výrobě pilotního CD-ROM pro program Paměť světa. Další pilotní projekty UNESCO následovaly, mj. vydání dvou kompletních rukopisů na CD v r. 1995 a školení UNESCO o digitalizaci pro zahraniční účastníky v r. 1996. Tento rok byl také významný tím, že byl zahájen rutinní provoz digitalizace rukopisů. Další projekty UNESCO financované ČSOB byly realizovány na sklonku tisíciletí: šlo o katalogy arabských a perských rukopisů s digitalizovanými ukázkami. V roce 1999 se rozbíhá digitalizace mikrofilmů převážně periodického tisku, takže v r. 2000 může Ministerstvo kultury ČR vyhlásit v rámci programu Veřejné informační služby knihoven (VISK) dva podprogramy na digitalizaci, které nesou dnes názvy Memoria a Kramerius. Díky jim se do digitalizace zapojují další domácí paměťové instituce. V letech 2003/2005 jsou spuštěny digitální knihovny Manuscriptorium (http://www.manuscriptorium.com) a Kramerius (http://kramerius.nkp.cz). Současným dlouhodobým cílem je vytvoření virtuálního badatelského prostředí především pro oblast rukopisů a starých tisků. Tato činnost je podpořena i příslušným výzkumným záměrem.
Metadata
Spuštění rutinní výroby digitálních dokumentů muselo předcházet řešení jejich strukturace. Ta vychází z koncepce tzv. složeného digitálního dokumentu (compound document), strukturovaného na platformě SGML. Vlastní SGML implementace v podobě jazyka DOBM se datuje právě do r. 1996; po aplikaci na rukopisy a staré tisky se objevuje též její konkrétní specifikace na digitalizovaná periodika. Tento přístup byl počátkem r. 1999 schválen UNESCO jako jeho doporučení pro digitální zpřístupnění dokumentů v programu Paměť světa.
V oblasti metadat uvedené standardy (ale i veškeré další) pomáhají při identifikaci digitální kopie ve vazbě na originální předlohu, umožňují popis/rozpis jejího obsahu, vyjadřují její strukturu, a to jak fyzickou (celek, ročník, strana, …), tak i logickou (články, fotografie, ilustrace, …), umožňují zápis technických údajů o datových (obrazových, zvukových, …) souborech, které vznikají digitalizací, poskytují informace pro případnou komunikaci mezi systémy ap. Uvedené části metadatové struktury jsou výsledkem namapování vnějších obsahových pravidel pro popis resp. pojednání jednotlivých oblastí.
Nejsnadnější je situace v oblasti identifikačního popisu, neboť je možné se opřít o známá katalogizační/identifikační pravidla (MARC, MASTER; CIDOC, AMICO, REACH ELEMENT SET, …). Pokud není digitální knihovna současně i katalogem (jako je Manuscriptorium pro rukopisy a staré tisky), ale pouze aplikací sloužící ke zprostředkování datového obsahu (především obrazů), pak nemusí být identifikační popis podrobný, protože jeho rolí je pouze usouvztažnit digitální kopii s originálem. Vlastní elektronický katalog instituce pak může do takovéto aplikace odkazovat (to je řešení Souborný katalog ČR plus digitální knihovna Kramerius).
Další namapovatelné standardy existují v oblasti technického popisu digitálního obrazu, nicméně tady by mělo platit, že jako mandatorní elementy použijeme pouze ty, které jsou pro daný cíl digitalizace nezbytné – pro určité typy dokumentů, tj. tam, kde nám nejde o přesnou rekonstrukci především původního barevného podání. V oblasti zvládání struktury digitálního dokumentu a popisu obsahu se můžeme opřít pouze o zavedenou praxi a pokud možno vyčerpávající analýzu vlastností daného typu dokumentu, takže z velké části tady nemáme při návrhu DTD resp. W3C schématu jinou možnost, než být nechtěně originální.
Daná DTD/W3C schémata pak musí být zabudována do našich výrobních nástrojů, pomocí nichž popisujeme a strukturujeme vyráběný digitální dokument, a samozřejmě do aplikací, které používáme pro zpřístupnění digitálních dokumentů. Proti očekávání je nejobtížnější a nejpracnější částí výroby digitálního dokumentu z pohledu metadat rozstrukturování výsledného produktu do příslušných částí, neboť tady se nevyhneme leckdy pracné analýze originálu – z příslušných částí pak vedou z určených elementů cesty na jejich vlastní digitální reprezentace, tj. digitální obrazové soubory vč. těch, obsahujících více dílčích stran (vlastnosti PDF, DjVu, LDF i TIFF v. 6).
Všechny tyto typy vlastností metadat digitálního dokumentu je vždy třeba zaznamenat příslušnými elementy na vyšší hierarchické úrovni popisného formátu; určitý obecný řád do této filozofie zavádí například nedávno vyvinutý formát METS, který vlastně poskytuje prostor pro jednotlivé typy metadat, aniž by však jejich strukturu konkrétně řešil.
Především identifikační metadata (ale v určitých případech nejen ona) jsou využívána v komunikačních profilech protokolů Z39:50 a OAI-PMH. Především OAI je protokolem, který se stává čím dál důležitějším, například Evropská knihovna TEL na něm staví při komunikaci s tzv. digitálním sbírkami/zdroji (hlavně katalogy) evropských národních knihoven. V této oblasti se také ukazuje, že jako profil pro tuto komunikaci plně postačuje Dublin Core. Pomocí OAI-PMH jsou takto do TEL zapojeny jak Manuscriptorium, tak i Kramerius; do portálu CERL-MSS (Consortium of European Research Libraries – Manuscripts) je Manuscriptorium zapojeno profilem MODS.
V současné době jsou k dispozici DTD/W3C schémata pro rukopisy a staré tisky (Manuscriptorium), strukturaci historických textů na bázi TEI (Manuscriptorium), digitalizovaná periodika (Kramerius), digitalizované monografie (Kramerius) a některá další nezabudovaná schémata. Pro již aplikovaná schémata existují editory, které usnadňují práci, a to jak na profesionální úrovni, tak i na běžné uživatelské úrovni (například M-TOOL – viz sekce Download v Manuscriptoriu na http://www.manuscriptoriumk.com); na bázi standardů pro Krameria existují i komplexní komerční řešení digitalizace, například systém Sirius firmy Elsyst Engineering. Lze říci, že výše uvedené komplexní formáty mají národní platnost. Příslušná schémata/DTD jsou k dispozici na referenčním serveru http://digit.nkp.cz, sekce Technické standardy.
Data
Metadata jsou však pouze vstupní branou do světa dat, tj. vlastních reprezentací originálních dokumentů: obrazů, plných textů, zvukových resp. video souborů. To, co zajímá uživatele především, jsou tedy data.
Doporučení pro pořizování datových souborů při digitalizaci analogových originálů jsem pro potřeby sekce informatiky Sdružená knihoven sepsal před několika měsíci – viz http://www.sdruk.cz/it/DataSDRKITRec.pdf. Tento dokument obsahuje stručný přehled závislosti vlastností digitálních dat na cílech digitalizace. Základním trendem v oblasti sdílení datových souborů je pak zprostředkování přijatelné kvality (subjektivního vjemu) při co nejmenším objemu přenášených digitálních dat. Tomuto se věnují nejnovější přístupy a techniky v oblasti obrazu, jako jsou především wavelet komprese barevného obrazu (například ve formátu JPEG2000), technologie smíšeného obsahu (Mixed Raster Contentnapříklad u plně rozvinutého DjVu nebo LDF), multiresolutional technologies (MrSID) nebo kompresní algoritmy typu JBIG 2 u černobílého obrazu. Tyto vlastnosti se pak ještě dále mohou kombinovat v digitálních knihovnách s obrazovými servery, které obstarávají dialog s uživatelem na základě dodávání předem připravené kvality obrazu nebo dynamické úpravy obrazového zdroje (například Lizardtech Express server v kombinaci s obrazem MrSID v Manuscriptorium pro historické mapy). Obdobnou službu obstarávají v oblasti videa řešení na bázi MPEG4, jako jsou DivX, Xvid ebo Nero Digital; resp. formáty MP3, WMA, MP3pro a další v oblasti zvuku. Na druhé straně stojí však vždy i péče o maximální kvalitu pro archivní účely.
V současné době byly digitalizovány v programu Kramerius na 2 miliony stran převážně periodik, přičemž další data byla pořízena v dalších institucích, zatím převážně v Knihovně Akademie věd ČR. Pro srovnání programů národních knihoven v Evropě je třeba uvést, že na prvním místě je v digitalizaci periodik Národní knihovna Španělska (40 milionů stran), dále následují Národní knihovna Francie (cca. 8 milionů stran), Rakouská národní knihovna a Britská knihovna (3,2 resp. 3,1 milionů stran); kromě nás má více než 1 milion stran v této oblasti digitalizován ještě jen Národní knihovna Islandu.
V Manuscriptoriu je celkem cca. 680 tisíc stran převážně rukopisů (asi 550 tisíc stran, zbytek staré tisky a mapy) – v oblasti rukopisů jde mezi národními knihovnami o největší digitální knihovnu v Evropě; více než 100 tisíc stran digitalizovaných rukopisů mají ještě v pořadí dle množství národní knihovny Islandu, Srbska, Vatikán a Itálie – Florencie.
Manuscriptorium se snaží o integraci partnerů z dalších zemí, což je kromě zabudování plných strukturovaných textů a zahájení zapracování ontologií jedním z hlavních směrů budování virtuálního badatelského prostředí v r. 2006.
Nejvíce energie se v současné době v Evropě soustřeďuje na tzv. hromadnou digitalizaci, tj. maximálně automatizovaný proces (automatické obracení stran) za účelem pořízení co největšího množství digitálních dat především v oblasti modernějších dokumentů. Kromě iniciativ Google resp. Yahoo běží pilotní projekt též v Národní knihovně Francie. Evropa má v oblasti digitalizace co dohánět zejména v konkurenci se zeměmi produkujícími obrovská množství digitálních dat z klasických originálů (Indie, Čína, Korea). Vždyť jen Národní knihovna Koreje v Soulu má více digitalizovaných dokumentů než všechny evropské národní knihovny dohromady.
Máme tu 2 komentářů
pilotní
Kromě iniciativ Google resp. Yahoo běží pilotní projekt též v Národní knihovně Francie.
Sam Reverse
ukazuje
V této oblasti se také ukazuje, že jako profil pro tuto komunikaci plně postačuje Dublin Core.
Pablo Naveira