Archivace webu »někde mezi dnem a vrcholem«

Čas nutný k přečtení
8 minut
Již přečteno

Archivace webu »někde mezi dnem a vrcholem«

1 comments
Autoři: 

Stalo se nedávno...

Knihovnickou veřejností i veřejností širší zahýbal nedávno článek nazvaný
prozaicky "Knihovny na dně". Reagovali jsme na něj i my v Ikarovi, a to
editorialem "České knihovny někde mezi dnem a
vrcholem"
. Tento článek si neklade za cíl jakkoli bilancovat či připomínat
rozpoutanou diskuzi, spíše naopak. Všímá si skutečnosti, že část
našeho editorialu byla věnována "elektronickým" reakcím čtenářů článku v diskuzích na webových stránkách Neviditelného psa a elektronické
podoby článku "Knihovny na dně" Lidových novin - toho času umístěné na serveru
Centrum.cz (přesněji na: http://zpravy.centrum.cz/ v rámci společného projektu
Lidových novin a Centrum.cz). Právě ono "toho času" je zde klíčové, neboť
spolupráce těchto dvou společností skončila k 31. 10. 2005, tedy zhruba dva týdny
poté, co byl článek o knihovnách zveřejněn.

Řeknete si, že nejde o žádnou katastrofu, jeden skončený dílčí projekt nic
neznamená, ale v tomto případě se stalo cosi méně obvyklého - všechny odkazy,
které kdysi fungovaly a které směřovaly na konkrétní rubriky, články a diskuzní
příspěvky, prostě náhle fungovat přestaly. Znovu a znovu jen stránka se strohým
"Vazeni uzivatele, spolecny projekt Centrum.cz a Lidovych novin
lidovky.centrum.cz skoncil 31.10.2005. * Nove zpravodajstvi Centrum.cz
naleznete na adrese www.aktualne.cz * Zpravodajstvi Lidovych novin naleznete na
adrese www.lidovky.cz".
Články sice - jak se ukázalo - úplně nezmizely, dají se
dohledat na jiných URL na www.lidovky.cz, nicméně diskuze zmizely zcela. Mohlo
by se tak dokonce zdát, že článek žádnou diskuzi nevzbudil (!).

Reakce Ikara

Vzhledem k tomu, že náš článek v Ikarovi vyšel začátkem listopadu a měl přímou
souvislost s obsahem diskuzí, obrátila se redakce Ikara e-mailem na Centrum.cz s dotazem, zda je zmizelá diskuse někde archivována a zda by ji bylo možné nějak získat. První reakce zástupce Centrum.cz zněla v tom smyslu, že v souvislosti s ukončením projektu došlo k definitivnímu zániku všech uživatelských diskuzí. Po doplňujícím dotazu jsme zjistili, že diskuze jsou sice zálohovány, ale že se jedná pouze o bezpečnostní zálohu, která se používá v případě selhání celého systému a konkrétní dokumenty z ní není možné pro technickou či časovou (?) náročnost získat.

Naše snaha tedy vyšla naprázdno a diskuze zmizely. I když - zmizely opravdu?
Stále se přece mluví o tom, jak je internet prohledáván a archivován. Že by
se tyto informace prostě ztratily, že by nebyly zachyceny? Rozhodli jsme se to
zkusit.

Co na to Google?

Google se v tomto případě opravdu neosvědčil. Má sice ve výsledcích vyhledávání
přesnou adresu článku, ale ta není indexována, archivována. Google tak
nevlastní jinou archivní kopii, než poslední (a to jen hlavní stránku), která
pochází z "jeho poslední návštěvy", což bylo nedávno. Podobné stránky a volba
Archiv nás dovedou do nekonečné smyčky těch samých nerelevantních odkazů a
stránek, které obsahují buď onu již zmíněnou stránku s oznámením o zrušením
projektu, nebo jiné články na Lidovky.cz. Tudy tedy cesta v tomto
případě bohužel nevede. Stejně skončí i snaha "jít přes" článek v Ikarovi - zde sice
existuje archivní kopie, ale odkazy z článku dále uchovávány nejsou,
takže jsou opět nepoužitelné.

Co na to Archive.org, resp. Wayback Machine?

Projekt Archive.org funguje od roku 1996 a shromažďuje obecně řečeno "digitální
obsah". Nejvíce proslulá je jeho "odnož" či prostě dílčí část Wayback Machine (dále WM), která se zabývá
archivací obsahu webu, a dále část zpřístupňující a shromažďující volně a
zdarma digitální audiovizuální
dokumenty
- vše od klasických filmů přes klipy mladých autorů po
dokumentární záběry. Cílem WM je (jak již název napovídá) možnost "vrátit se
zpět v čase", možnost zhlédnout webové stránky takové, jaké byly v okamžiku,
kdy byly pomocí WM archivovány. To celé nejlépe věrné nejen obsahově, ale i po
grafické, vizuální stránce. WM na rozdíl např. od Googlu ukládá nejen stránku jako
takovou, ale i další "úroveň" odkazů na ní, tj. i obsah/stránku, na kterou je
přímo odkazováno (pokud jsou splněna jistá technická kritéria) - podrobněji na
Archive.org nebo ve Wikipedii.

Prozradím předem, že ani zde se nám diskuze bohužel dohledat nepodařilo.
Důvodů je několik. První vychází ze skutečnosti, že stránky jsou ve WM
zveřejňovány se zpožděním 6-12 měsíců od archivace. Přitom naposledy zveřejněný
"archivovaný bod" na WM je pro URL http://lidovky.centrum.cz/zajimavosti/ k
dnešnímu dni (29. 12. 2005) přes 9 měsíců starý, konkrétně se jedná o stav k
9. 3. 2005
). Tato skutečnost by byla sama o sobě velkou nadějí - stačí přeci
vyčkat a dočkáme se oné vytoužené archivní kopie!

Je zde ale ještě druhý problém, totiž fakt, který vychází z analýzy již
archivovaných URL zveřejněných prostřednictvím WM. Ukázalo se totiž, že v rámci zmíněného
URL/domény lidovky.centrum.cz/ byla uchována "jen" hlavní stránka, úvodní
stránky rubrik a část článků jako takových, nikoliv však všechny. Může se tedy stát, že
článek o knihovnách prostě ani archivován nebyl. Nicméně je zde i pozitivní
zjištění - u několika článků zůstal pod článkem zachován "přehled"
diskuze, výpis předmětů jednotlivých příspěvků. Je to sice málo, ale alespoň je
zřetelné, že/zda vůbec nějaká diskuze proběhla.
Logicky se nabízí otázka - když se zachoval přehled diskuze, když se zachovaly
odkazy na jednotlivé příspěvky, zůstaly zachovány i obsahy příspěvků? Odpověď
je bohužel záporná. Ne, příspěvky jako takové se bohužel ve WM nedochovaly.
Proč? Prostě proto, že je WM nedokázal z technických důvodů najít a uložit.
Protože byly příliš dynamické a málo statické, ano, málo trvanlivé. WM nezpracovává formuláře, nezkouší každou
možnost, jak vyplnit a následně "zakliknout" každé aktivní tlačítko na stránce.
Objevují se problémy s JavaScripty a CSS styly - například s pozadím
definovaným až v externích stylech, jak můžeme vidět při porovnání
následujících dvou verzí stránek Ministerstva informatiky ČR, verze
archivované k 22. 2. 2005
a "současné", nearchivované (k
29. 12. 2005 byly styly zcela identické, přesto byly ve stejném prohlížeči
zobrazováno jinak). Důvodem pro nezachycení stránek může být i fakt, že WM respektuje tzv. "robots.txt"
soubor, ve kterém lze definovat, čemu se mají právě různí automatičtí
shromažďovači dat (jinak též: robot, harvester, wanderer nebo spider) vyhnout -
a zde lze nastavit skrytí, "odstřihnutí" čehokoli, celých částí webu/URL nebo
třeba jen jednoho souboru. Podrobnější informace k této problematice najdete např. na stránkách robotstxt.org, mechanismus WM je vysvětlen na stránkách na
stránkách Archive.org.

Co závěrem

Dostávám se k závěru naší odyssey, naší dlouhé plavby. Možná se může zdát, že
byla celá naše snaha marná, že šlo v podstatě o sisyfovské snažení, boj proti
větrným mlýnům, který nevedl k ničemu a byl veden tak trochu "pro nic". Že by
bylo lepší ani se neozvat, mávnout rukou a nechat zmizet těch pár desítek
příspěvků bez mrknutí oka - nebyly by první ani poslední.

Na straně druhé - třebaže jsme zatím ničeho "viditelného" přímo nedosáhli,
možná jsme se poučili, neboť jisté je, že díky podobným "zádrhelům" si člověk
uvědomí mnoho (často nových) souvislostí, vlivů a snad i povinností, na které
by neměl zapomínat.

V celé věci jde především o lokalizaci digitálního obsahu. Už jen na tomto
primitivním příkladu je vidět, jak je současný zavedený (lépe snad stereotypní)
způsob lokalizace pomocí URL ošemetný a často kontraproduktivní, neboť již ze
své definice - tj. z faktu, že se uvádí adresa serveru a umístění
souboru v rámci adresářové struktury - vyžaduje neustálou lidskou kontrolu a
synchronizaci. A to znamená v první řadě vůli k zachování kontinuity, vědomí,
že jeden zásah může porušit provázanost - a tím že se často (obrazně řečeno)
po odebrání několika cihel zhroutí celý dům, informace se rozpadne na jednotlivé údaje, data se ocitnou bez kontextu.

Je ale pravda, že v tomto konkrétním případě by převedení kompletní databáze
diskuzních příspěvků a vytvoření (či aplikování) mechanismu na propojení
starých URL a nových URL mezi Lidovky.cz a Centrum.cz mohlo být velmi pracné a
tedy i drahé. Rozhodně by se to nevyplatilo vzhledem ke kalkulaci "stěžovači"
(=Ikaros) vs. "nestěžovači" (snad zbytek planety).

Ale zvolit razantní řešení, které veškerý "projev veřejnosti" degraduje na méně
důležitý (resp. nedůležitý), méně "drahý" a méně "vážený", než článek samotný,
to je na pováženou a o čemsi svědčí - minimálně o tom, jak vážně berou některá média
zpětnou vazbu svých uživatelů.

Nabízí se otázka, kdo by měl být ten, kdo rozhodne, "co je lepší" - co převést a
co ne, aby se "ušetřilo, ale koza zůstala celá". A opět můžeme vidět ten samý
výsledek - již samo rozhodování je příliš pracné, příliš zdlouhavé, příliš
drahé, a proto je přeci nejlepší moc neváhat, moc se nezamýšlet, rozhodně
jednat, ať již jakkoli.

Takže jsme plynule přešli k otázce financí a "přiměřených nákladů" s ohledem na
zisk a přínos - což jsou samozřejmě dvě zásadně odlišné věci, odlišná hlediska.
Snad kdyby bylo dovoleno hrstce dobrovolníků či dobrovolníkovi "pohrát si" se
zálohami Centrum.cz a dostat z nich, třeba takřka hlavoručně, zmíněné diskuzní
příspěvky a vložit je do současné správné lokace ...

...ale bohužel, ještě jsou zde otázky dobré vůle, autonomie a bezpečnosti.
Mimochodem bezpečnosti, které tak často brzdí technický a technologický rozvoj,
a to zejména tím, že omezuje možnost využití, využitelnost již existujících
elektronických služeb. Příklad za mnohé jsou myslím jednoznačně zakázané porty
klíčové pro provoz aplikace/služby typu ICQ nebo omezení IP telefonie.

Nemohu se na úplný závěr také nezastavit u toho, kam logicky ústí a vyústí
vědomí "ztrátovosti", riziko možnosti ztráty konkrétního zdroje - vede k tomu,
že vše chceme "mít doma", vlastnit. Chceme mít vše na svém harddisku, ve svém
archivu, ve své správě. Uložíme si tak cokoli, na co narazíme - ano, často i s
odkazem, odkud jsme si dané informace či soubory stáhli, ale často bez nich,
vždyť: "K čemu to přeci nakonec bude?".

A od bezhlavého ukládání je již jen krůček ke změně způsobu myšlení, lépe snad
použít módní "změně paradigmatu", změně v přístupu "co je čí", k autorství a
chápání použití/využití "pro vlastní potřebu". Krásně se to ukazuje na změně
významu slova "sdílet", které díky hojnému užívání na internetu začíná znamenat
spíše "vlastnit díky tomu, že vlastní ostatní; vlastnit stejně jako ostatní"
než "mít společně (přístup k něčemu)". Není snad internet "tak nějak všech"?
Není tedy vše na webu "tak nějak všech", tedy i mé? A není tedy lepší vytvořit
si preventivně svůj vlastní "mikro-web", kousek virtuálního vesmíru, který bude
jen můj a nebude se náhle a "bez příčiny" hroutit a ztrácet? Jistěže je...

...a proto redakce prosí všechny, kteří čirou náhodou mají staženy, uloženy
diskuzní příspěvky k danému článku, aby je redakci poskytli a ta se pokusí o
jejich navrácení tam, kam patří - tedy pod text článku a nikoliv do propadliště
virtuálních dějin. Děkujeme.

Hodnocení: 
Zatím žádné hodnocení
ŠTOGR, Jakub. Archivace webu »někde mezi dnem a vrcholem«. Ikaros [online]. 2006, ročník 10, číslo 1 [cit. 2015-03-13]. urn:nbn:cz:ik-12004. ISSN 1212-5075. Dostupné z: http://ikaros.cz/node/12004

automaticky generované reklamy

Máme zde 1 komentář

I enjoyed this post Abhishek. It was certainly creative and not what I was expecting when I clicked on the title – a title I might add, which is quite good. I know I had to find out what ways ‘guaranteed’ I could grow my list.

registration login password