Archivace webu »někde mezi dnem a vrcholem«

Stalo se nedávno...

Knihovnickou veřejností i veřejností širší zahýbal nedávno článek nazvaný prozaicky "Knihovny na dně". Reagovali jsme na něj i my v Ikarovi, a to editorialem "České knihovny někde mezi dnem a vrcholem". Tento článek si neklade za cíl jakkoli bilancovat či připomínat rozpoutanou diskuzi, spíše naopak. Všímá si skutečnosti, že část našeho editorialu byla věnována "elektronickým" reakcím čtenářů článku v diskuzích na webových stránkách Neviditelného psa a elektronické podoby článku "Knihovny na dně" Lidových novin - toho času umístěné na serveru Centrum.cz (přesněji na: http://zpravy.centrum.cz/ v rámci společného projektu Lidových novin a Centrum.cz). Právě ono "toho času" je zde klíčové, neboť spolupráce těchto dvou společností skončila k 31. 10. 2005, tedy zhruba dva týdny poté, co byl článek o knihovnách zveřejněn.

Řeknete si, že nejde o žádnou katastrofu, jeden skončený dílčí projekt nic neznamená, ale v tomto případě se stalo cosi méně obvyklého - všechny odkazy, které kdysi fungovaly a které směřovaly na konkrétní rubriky, články a diskuzní příspěvky, prostě náhle fungovat přestaly. Znovu a znovu jen stránka se strohým "Vazeni uzivatele, spolecny projekt Centrum.cz a Lidovych novin lidovky.centrum.cz skoncil 31.10.2005. * Nove zpravodajstvi Centrum.cz naleznete na adrese www.aktualne.cz * Zpravodajstvi Lidovych novin naleznete na adrese www.lidovky.cz". Články sice - jak se ukázalo - úplně nezmizely, dají se dohledat na jiných URL na www.lidovky.cz, nicméně diskuze zmizely zcela. Mohlo by se tak dokonce zdát, že článek žádnou diskuzi nevzbudil (!).

Reakce Ikara

Vzhledem k tomu, že náš článek v Ikarovi vyšel začátkem listopadu a měl přímou souvislost s obsahem diskuzí, obrátila se redakce Ikara e-mailem na Centrum.cz s dotazem, zda je zmizelá diskuse někde archivována a zda by ji bylo možné nějak získat. První reakce zástupce Centrum.cz zněla v tom smyslu, že v souvislosti s ukončením projektu došlo k definitivnímu zániku všech uživatelských diskuzí. Po doplňujícím dotazu jsme zjistili, že diskuze jsou sice zálohovány, ale že se jedná pouze o bezpečnostní zálohu, která se používá v případě selhání celého systému a konkrétní dokumenty z ní není možné pro technickou či časovou (?) náročnost získat.

Naše snaha tedy vyšla naprázdno a diskuze zmizely. I když - zmizely opravdu? Stále se přece mluví o tom, jak je internet prohledáván a archivován. Že by se tyto informace prostě ztratily, že by nebyly zachyceny? Rozhodli jsme se to zkusit.

Co na to Google?

Google se v tomto případě opravdu neosvědčil. Má sice ve výsledcích vyhledávání přesnou adresu článku, ale ta není indexována, archivována. Google tak nevlastní jinou archivní kopii, než poslední (a to jen hlavní stránku), která pochází z "jeho poslední návštěvy", což bylo nedávno. Podobné stránky a volba Archiv nás dovedou do nekonečné smyčky těch samých nerelevantních odkazů a stránek, které obsahují buď onu již zmíněnou stránku s oznámením o zrušením projektu, nebo jiné články na Lidovky.cz. Tudy tedy cesta v tomto případě bohužel nevede. Stejně skončí i snaha "jít přes" článek v Ikarovi - zde sice existuje archivní kopie, ale odkazy z článku dále uchovávány nejsou, takže jsou opět nepoužitelné.

Co na to Archive.org, resp. Wayback Machine?

Projekt Archive.org funguje od roku 1996 a shromažďuje obecně řečeno "digitální obsah". Nejvíce proslulá je jeho "odnož" či prostě dílčí část Wayback Machine (dále WM), která se zabývá archivací obsahu webu, a dále část zpřístupňující a shromažďující volně a zdarma digitální audiovizuální dokumenty - vše od klasických filmů přes klipy mladých autorů po dokumentární záběry. Cílem WM je (jak již název napovídá) možnost "vrátit se zpět v čase", možnost zhlédnout webové stránky takové, jaké byly v okamžiku, kdy byly pomocí WM archivovány. To celé nejlépe věrné nejen obsahově, ale i po grafické, vizuální stránce. WM na rozdíl např. od Googlu ukládá nejen stránku jako takovou, ale i další "úroveň" odkazů na ní, tj. i obsah/stránku, na kterou je přímo odkazováno (pokud jsou splněna jistá technická kritéria) - podrobněji na Archive.org nebo ve Wikipedii.

Prozradím předem, že ani zde se nám diskuze bohužel dohledat nepodařilo. Důvodů je několik. První vychází ze skutečnosti, že stránky jsou ve WM zveřejňovány se zpožděním 6-12 měsíců od archivace. Přitom naposledy zveřejněný "archivovaný bod" na WM je pro URL http://lidovky.centrum.cz/zajimavosti/ k dnešnímu dni (29. 12. 2005) přes 9 měsíců starý, konkrétně se jedná o stav k 9. 3. 2005). Tato skutečnost by byla sama o sobě velkou nadějí - stačí přeci vyčkat a dočkáme se oné vytoužené archivní kopie!

Je zde ale ještě druhý problém, totiž fakt, který vychází z analýzy již archivovaných URL zveřejněných prostřednictvím WM. Ukázalo se totiž, že v rámci zmíněného URL/domény lidovky.centrum.cz/ byla uchována "jen" hlavní stránka, úvodní stránky rubrik a část článků jako takových, nikoliv však všechny. Může se tedy stát, že článek o knihovnách prostě ani archivován nebyl. Nicméně je zde i pozitivní zjištění - u několika článků zůstal pod článkem zachován "přehled" diskuze, výpis předmětů jednotlivých příspěvků. Je to sice málo, ale alespoň je zřetelné, že/zda vůbec nějaká diskuze proběhla. Logicky se nabízí otázka - když se zachoval přehled diskuze, když se zachovaly odkazy na jednotlivé příspěvky, zůstaly zachovány i obsahy příspěvků? Odpověď je bohužel záporná. Ne, příspěvky jako takové se bohužel ve WM nedochovaly. Proč? Prostě proto, že je WM nedokázal z technických důvodů najít a uložit. Protože byly příliš dynamické a málo statické, ano, málo trvanlivé. WM nezpracovává formuláře, nezkouší každou možnost, jak vyplnit a následně "zakliknout" každé aktivní tlačítko na stránce. Objevují se problémy s JavaScripty a CSS styly - například s pozadím definovaným až v externích stylech, jak můžeme vidět při porovnání následujících dvou verzí stránek Ministerstva informatiky ČR, verze archivované k 22. 2. 2005 a "současné", nearchivované (k 29. 12. 2005 byly styly zcela identické, přesto byly ve stejném prohlížeči zobrazováno jinak). Důvodem pro nezachycení stránek může být i fakt, že WM respektuje tzv. "robots.txt" soubor, ve kterém lze definovat, čemu se mají právě různí automatičtí shromažďovači dat (jinak též: robot, harvester, wanderer nebo spider) vyhnout - a zde lze nastavit skrytí, "odstřihnutí" čehokoli, celých částí webu/URL nebo třeba jen jednoho souboru. Podrobnější informace k této problematice najdete např. na stránkách robotstxt.org, mechanismus WM je vysvětlen na stránkách na stránkách Archive.org.

Co závěrem

Dostávám se k závěru naší odyssey, naší dlouhé plavby. Možná se může zdát, že byla celá naše snaha marná, že šlo v podstatě o sisyfovské snažení, boj proti větrným mlýnům, který nevedl k ničemu a byl veden tak trochu "pro nic". Že by bylo lepší ani se neozvat, mávnout rukou a nechat zmizet těch pár desítek příspěvků bez mrknutí oka - nebyly by první ani poslední.

Na straně druhé - třebaže jsme zatím ničeho "viditelného" přímo nedosáhli, možná jsme se poučili, neboť jisté je, že díky podobným "zádrhelům" si člověk uvědomí mnoho (často nových) souvislostí, vlivů a snad i povinností, na které by neměl zapomínat.

V celé věci jde především o lokalizaci digitálního obsahu. Už jen na tomto primitivním příkladu je vidět, jak je současný zavedený (lépe snad stereotypní) způsob lokalizace pomocí URL ošemetný a často kontraproduktivní, neboť již ze své definice - tj. z faktu, že se uvádí adresa serveru a umístění souboru v rámci adresářové struktury - vyžaduje neustálou lidskou kontrolu a synchronizaci. A to znamená v první řadě vůli k zachování kontinuity, vědomí, že jeden zásah může porušit provázanost - a tím že se často (obrazně řečeno) po odebrání několika cihel zhroutí celý dům, informace se rozpadne na jednotlivé údaje, data se ocitnou bez kontextu.

Je ale pravda, že v tomto konkrétním případě by převedení kompletní databáze diskuzních příspěvků a vytvoření (či aplikování) mechanismu na propojení starých URL a nových URL mezi Lidovky.cz a Centrum.cz mohlo být velmi pracné a tedy i drahé. Rozhodně by se to nevyplatilo vzhledem ke kalkulaci "stěžovači" (=Ikaros) vs. "nestěžovači" (snad zbytek planety).

Ale zvolit razantní řešení, které veškerý "projev veřejnosti" degraduje na méně důležitý (resp. nedůležitý), méně "drahý" a méně "vážený", než článek samotný, to je na pováženou a o čemsi svědčí - minimálně o tom, jak vážně berou některá média zpětnou vazbu svých uživatelů.

Nabízí se otázka, kdo by měl být ten, kdo rozhodne, "co je lepší" - co převést a co ne, aby se "ušetřilo, ale koza zůstala celá". A opět můžeme vidět ten samý výsledek - již samo rozhodování je příliš pracné, příliš zdlouhavé, příliš drahé, a proto je přeci nejlepší moc neváhat, moc se nezamýšlet, rozhodně jednat, ať již jakkoli.

Takže jsme plynule přešli k otázce financí a "přiměřených nákladů" s ohledem na zisk a přínos - což jsou samozřejmě dvě zásadně odlišné věci, odlišná hlediska. Snad kdyby bylo dovoleno hrstce dobrovolníků či dobrovolníkovi "pohrát si" se zálohami Centrum.cz a dostat z nich, třeba takřka hlavoručně, zmíněné diskuzní příspěvky a vložit je do současné správné lokace ...

...ale bohužel, ještě jsou zde otázky dobré vůle, autonomie a bezpečnosti. Mimochodem bezpečnosti, které tak často brzdí technický a technologický rozvoj, a to zejména tím, že omezuje možnost využití, využitelnost již existujících elektronických služeb. Příklad za mnohé jsou myslím jednoznačně zakázané porty klíčové pro provoz aplikace/služby typu ICQ nebo omezení IP telefonie.

Nemohu se na úplný závěr také nezastavit u toho, kam logicky ústí a vyústí vědomí "ztrátovosti", riziko možnosti ztráty konkrétního zdroje - vede k tomu, že vše chceme "mít doma", vlastnit. Chceme mít vše na svém harddisku, ve svém archivu, ve své správě. Uložíme si tak cokoli, na co narazíme - ano, často i s odkazem, odkud jsme si dané informace či soubory stáhli, ale často bez nich, vždyť: "K čemu to přeci nakonec bude?".

A od bezhlavého ukládání je již jen krůček ke změně způsobu myšlení, lépe snad použít módní "změně paradigmatu", změně v přístupu "co je čí", k autorství a chápání použití/využití "pro vlastní potřebu". Krásně se to ukazuje na změně významu slova "sdílet", které díky hojnému užívání na internetu začíná znamenat spíše "vlastnit díky tomu, že vlastní ostatní; vlastnit stejně jako ostatní" než "mít společně (přístup k něčemu)". Není snad internet "tak nějak všech"? Není tedy vše na webu "tak nějak všech", tedy i mé? A není tedy lepší vytvořit si preventivně svůj vlastní "mikro-web", kousek virtuálního vesmíru, který bude jen můj a nebude se náhle a "bez příčiny" hroutit a ztrácet? Jistěže je...

...a proto redakce prosí všechny, kteří čirou náhodou mají staženy, uloženy diskuzní příspěvky k danému článku, aby je redakci poskytli a ta se pokusí o jejich navrácení tam, kam patří - tedy pod text článku a nikoliv do propadliště virtuálních dějin. Děkujeme.

Štogr, Jakub. Archivace webu »někde mezi dnem a vrcholem«. Ikaros [online]. 2006, roč. 10, č. 1 [cit. 26.11.2014]. Dostupný na World Wide Web: <http://www.ikaros.cz/node/2101>. urn:nbn:cz:ik‐002101. ISSN 1212-5075.
Průměr: 3.6 (hlasů: 5)

NBA Hats

I enjoyed this post Abhishek. It was certainly creative and not what I was expecting when I clicked on the title – a title I might add, which is quite good. I know I had to find out what ways ‘guaranteed’ I could grow my list.


automaticky generované reklamy