
Mezinárodní konsorcium IIPC (International Internet Preservation Consortium) otevřelo v letošním roce členství v této instituci pro knihovny, archivy, muzea a další kulturní paměťové instituce po celém světě, které se zabývají shromažďováním a ochranou obsahu internetu a prokáží významné zkušenosti s archivací webu. Mezi přistupující členy se zařadila také Národní knihovna České republiky. Výsledky projektu WebArchiv, řešeného od roku 2000 v NK ČR ve spolupráci s Moravskou zemskou knihovnou a Ústavem výpočetní techniky Masarykovy univerzity v Brně, byly tímto oceněny jako významné a srovnatelné s výsledky nejpokročilejších zemí v této oblasti a řešitelé uznáni jako rovnocenní partneři pro další rozvoj v oblasti archivace webu.
Oficiálně byli noví členové přijati na prvním plenárním zasedání IIPC v novém složení, spojeném s prezentacemi všech členů, odbornými semináři a jednáním pracovních skupin. Toto zasedání uspořádala Bibliothèque nationale de France v prostorách své knihovny Françoise Mitterranda v Paříži ve dnech 18. – 20. dubna 2007. K původním jedenácti členům (deseti národním knihovnám a neziskové organizaci Internet Archive) přibylo třináct nových institucí; ze stávajícího počtu 24 členů jsou tři z austroasijské oblasti, patnáct z Evropy a šest institucí ze Severní Ameriky. Jedná se již nejen o národní knihovny, ale také o veřejné či univerzitní knihovny, národní archivy a profesní organizace.
Posláním konsorcia IIPC je získávat a uchovávat znalosti a informace zveřejněné na internetu tak, aby byly přístupné budoucím generacím, podporovat celosvětovou výměnu těchto informací a mezinárodní výměnu zkušeností.
Jeho cílem je:
V období od založení konsorcia v červnu 2003 do konce roku 2006 se jeho činnost věnovala především vývoji obecného rámce, technik, standardů a softwarových nástrojů pro archivaci webu. Pozornost se zaměřila na vývoj nástrojů, které umožní sklízení, archivaci a trvalý přístup k archivovaným zdrojům.
Spolupráce členů konsorcia při vývoji nástrojů pro archivaci webu je konkrétní náplní jeho činnosti a také jedním z jeho hlavních přínosů. Pro tento účel jsou v rozpočtu konsorcia vyhrazeny prostředky na podporu projektů. Členové konsorcia se mohou spojit a navrhnout projekt, v rámci kterého se budou podílet na vývoji řešení pro jejich společné konkrétní potřeby či zájmy. Ke schválení a uskutečnění projektu je zapotřebí účast nejméně dvou členů. O přidělování finančních prostředků na projekty rozhoduje Řídící výbor konsorcia v souladu se strategickými cíli a záměry konsorcia, které by měly odrážet potřeby většiny členů. Jednotliví členové mohou dále poskytnout podporu pro projekty ve formě dobrovolných finančních příspěvků nad rámec členských příspěvků, lidských zdrojů nebo odborných znalostí.
Projekty jsou zaměřeny zejména na vývoj software. Podmínkou je, aby vyvinuté nástroje byly interoperabilní, tzn. musí být schopny propojení a spolupráce s dalšími nástroji vyvinutými jak v rámci konsorcia, tak mimo něj. Druhou podmínkou je, že softwarové nástroje musí být řešeny jako otevřený kód (open source).
Nástroje vyvinuté v rámci projektů:
Heritrix – nástroj pro sklízení webu
NutchWAX - nástroj pro vyhledávání v archivu
WayBack Machine a WERA – rozhraní pro zobrazování dokumentů z archivu
WARC – formát pro archivaci sklizených webových zdrojů
Druhou formou spolupráce členů je účast v pracovních skupinách, které se zaměřují na teoretický výzkum a řešení koncepčních otázek ve flexibilnější a méně formalizované podobě než v rámci projektů. Výstupem pracovních skupin mohou být doporučení pro další strategické cíle a záměry konsorcia, ale i návrhy na konkrétní projekty. Během prvního období (2003-2006) byly činné tyto pracovní skupiny:
Framework – vytvoření společného technického rámce pro archivaci webu v podobě doporučení pro architekturu, standardní formáty a specifikace systémových rozhraní, které by umožnilo technické propojení členů konsorcia při využívání existujících otevřených standardů a modelů.
Researchers Requirements – průzkum zaměřený na budování obsahu webových archivů z hlediska potřeb jejich uživatelů (rozsah, záběr, aktualizace, struktura a návazné informace) tak, aby archivy byly využitelné v současnosti i dlouhodobě (do budoucna).
Access Tools – vývoj doporučení pro postupy a nástroje umožňující přístup k obsahu webových archivů za účelem kontroly kvality obsahu, navigace v archivu, analýzy obsahu a struktury archivovaných materiálů a uchování schopnosti jejich budoucího zpřístupnění.
Deep Web – identifikace strategií a vývoj nástrojů pro archivaci obsahu webu, který není dostupný běžnými nástroji pro sklízení, jako jsou např. databáze.
Metrics and Testbed – vývoj metodologie pro měření a vyhodnocování kvality a výkonnosti nástrojů a procesů pro archivaci webu.
Pro následující období činnosti konsorcia byly vytyčeny čtyři hlavní oblasti dalšího vývoje: sklízení (Harvesting), zpřístupnění (Access), trvalé uchování (Preservation) a standardizace (Standards). První tři byly ustanoveny jako pracovní skupiny; oblast standardizace úzce souvisí se všemi z nich a bude řešena v návaznosti na potřeby těchto skupin. Pro aktivity v jednotlivých oblastech byly stanoveny následující cíle:
Harvesting – projekt inteligentního sklízecího nástroje (smart crawler), sklízení „hlubokého“ webu a webu 2.0
Access – vylepšení stávajících nástrojů (WERA a WayBack Machine), plnotextová indexace a vyhledávání v rozsáhlých databázích, projekty na vývoj pokročilých nástrojů pro data mining a vyhledávání
Preservation – doporučení pro trvalé uchování webových archivů vycházející z existujících standardů pro uchování digitálních dokumentů
Standardizace - bude pokračovat vývoj WARC a dalších standardů, API, metadat aj. v závislosti na potřebách pracovních skupin
Poslat nový komentář