Sorry, you need to enable JavaScript to visit this website.

Polytematický strukturovaný heslář a vyhledávání v ALEPHu

Čas nutný k přečtení
10 minut
Již přečteno

Polytematický strukturovaný heslář a vyhledávání v ALEPHu

1 comments
Anglicky
English title: 
Polythematic Structured Subject Heading System and Searching in ALEPH
English abstract: 
<p>Polythematic Structured Subject Heading System (PSH) exists already in the third version. The terms of PSH are possible to view and search via Web&nbsp;pages. In&nbsp;the&nbsp;article the author presents Web&nbsp;agent that can connect any term of PSH with search in ALEPH library system. Moreover the users can choose their preferred database and ALEPH system by defining the proper URL&nbsp;specification for the Web&nbsp;agent.</p>
Autoři: 

1. Historie PSH

Polytematický strukturovaný heslář se u nás objevil již na začátku 90. let. Na jeho vzniku se tehdy významným způsobem podílela Státní technická knihovna, ale spolupracovala přitom i s jinými institucemi hlavně z akademické sféry. Více informací bylo možno vždy najít na stránkách této knihovny, nyní Národní technické knihovny.

Z informačního (lépe řečeno technického) hlediska je Polytematický strukturovaný heslář slovník s tezaurovými vazbami. Označení tezaurus se pro něj nepoužívá, neboť obsahuje velmi širokou (polytematickou) oblast termínů. Snad jedině kdysi na webu Státní technické knihovny byl na anglických webových stránkách pro odkaz do Polytematického strukturovaného hesláře použit termín Thesaurus.

V zásadě se tezaurus odlišuje od obyčejného slovníku definovanými relacemi, tedy vazbami mezi jednotlivými termíny. A právě přehledné a srozumitelné provedení relací bývalo úskalím jednoduché počítačové implementace tezaurů do doby, než se rozšířil web. Prokliknutelné odkazy na webových stránkách mohou velmi jednoduše ilustrovat vazby mezi termíny tezauru. Velmi názorně onu situaci ukazuje implementace Polytematického strukturovaného hesláře na webových stránkách ČVUT.

Asi hlavní přínos tezaurových vazeb ve slovnících (heslářích) spočívá pro nezasvěceného uživatele v lepším pochopení významu termínu a jeho začlenění do souvislostí. Dalo by se říci, že tezaurové vazby mohou uživatelům zprostředkovávat určitou znalost nejzákladnějších reálií mnohdy specifických pro určitou oblast. Příkladem termínu, jehož použití možná někoho v úvodu druhého odstavce článku překvapilo, je heslo informatika. Použití tohoto termínu se u nás vyvíjelo poněkud nestandardně. Prapůvodně se u nás pod informatikou rozuměla informační věda (týkající se informačních procesů, informačních fondů, celého knihovnictví atd.). S koncem 80. let si termín "informatika" snažili přivlastnit matematici, přesněji řečeno lidé pracující v oblasti teorie množin a algoritmů. Toto pojetí označitelné nejlépe jako matematická informatika snad souviselo se snahou některých čistě teoreticky zaměřených matematiků získat podporu věnovanou nastupujícímu rozvoji počítačů i pro velmi vzdáleně související problémy ze základů matematiky. A po roce 1989 se pod vlivem zahraničí začalo prosazovat pojetí informatiky chápané jako výpočetní technika.

A právě o tomto může člověk získat povědomí z přehledně přístupného hesláře PSH na ČVUT. Ba co více, přístupnost i starých verzí PSH umožňuje ilustrovat právě popsanou "historii informatiky u nás", viz verze PSH: informatika (1.3)   informatika (1.4)   informatika (2.1)
Přístupnost hesláře PSH na ČVUT umožňuje taktéž vyhledávání termínů v příslušné verzi Polytematického strukturovaného hesláře. Takový, ač na první pohled poměrně jednoduchý, systém se dá chápat jako plnohodnotný informační systém pro heslář PSH.

Srovnáme-li tento systém s tezaury poměrně složitě implementovanými v některých databázových anebo přímo knihovních systémech, chybí mu jedna zásadní funkčnost – možnost snadného použití termínu z tezauru pro vyhledávání v (hlavní) databázi spravované systémem. A právě tento nedostatek lze odstranit vhodným webovým agentem.

2. Využití webového agenta

Vznik agenta k PSH je trochu podivný. Původně jsem si myslel, že bzch tento problém mohl zadat jako seminární práci studentům magisterského studia Znalostního inženýrství - abych si ho nakonec cvičně vypracoval sám. Webový agent přečte vždy webovou stránku z PSH.CVUT.CZ a pouze doplní k hlavnímu termínu oné stránky rešeršní odkaz do systému ALEPH na VŠE (do souhrnné databáze SOUKAT). Takto (z hlediska výuky) ilustrativně s odkazy do knihovní databáze byl PSH přístupný v STK, dokud provozovali svůj systém pod DataFlexem. Přechodem na Aleph a hlavně při letošním stěhování pak tato možnost chyběla. (O jejím novém zprovoznění bude samozřejmě ještě zmínka.)

Samotná implementace zmíněného agenta PSH musela zahrnovat některé úpravy řetězců převzatých ze stránek PSH pro využití v odkazech do ALEPHu. Především na VŠE (ale nyní snad i všude jinde) ALEPH požaduje znaky s diakritickými znaménky uvádět v kódu UTF-8. Zmíněné stránky hesláře PSH na ČVUT jsou však v kódu ISO-8858-2 a je třeba se nějak vypořádat s převodem znaků. Zvolen byl nejjednodušší způsob jejich prostého odstranění a zadávání dotazových řetězců bez háčků a čárek. Přesněji řečeno pro všechny české znaky s diakritickými znaménky se sekundární řadicí platností. A protože primární řadicí platnost mají (kromě ch) v češtině pouze písmena č, ř, š, ž, jen tyto znaky jsou převedeny z kódu ISO-8859-2 do UTF-8. (I když i to je zbytečné, protože ani tyto znaky na rozdíl od Národní knihovny ALEPH na VŠE při dotazech neodlišuje od znaků c , r , s , z.) Další otázkou je, zda se textové řetězce mají ještě nějak "normalizovat", aby se daly použít přímo jako hodnota v parametru  &request=  pro funkci  find-e , samozřejmě kromě nahrazení mezery (či více mezer) znakem  + . Jedná se například o odstraňování předložek jako  k , v , s  a pak interpunkčních znamének. Zatímco třeba čárka v dotazovém řetězci je odstraněna, předložky i spojky byly nakonec v dotazu ponechány především kvůli zvýšení přesnosti vyhledávání.

Obecně nejzávažnější je ovšem otázka, jakou vyhledávací funkci a hlavně s jakými parametry použít pro vyhledávání v ALEPHu. Na VŠE bylo jednoduché zvolit univerzální vyhledávaní v souhrnné databázi SOUKAT s parametrem &adjacent=Y čili respektovat přesně vzdálenost slov (včetně případných spojek i předložek). A právě kvůli možné diskuzi o variantních odpovědích na uvedené otázky byl původní agent  PSH rozšířen o možnost, kdy si každý uživatel může při jeho spuštění sám zvolit tvar dotazu (tedy jeho celé URL včetně parametrů) doplňované pak agentem k termínům hesláře jako odkazy do ALEPHu.

3. Volba vlastních odkazů

Při úvodní aktivaci webového agenta psh si každý uživatel může zadat svůj odkaz do (svého) ALEPHu, který mu pak agent doplní ke všem termínům hesláře. Přesněji řečeno, zadaný URL odkaz musí obsahovat parametr &request= , a to nejlépe zcela na konci. (V opačném případě je URL v onom místě ukončeno.) Často je možno jednoduše zadat konkrétní dotaz do ALEPHu a URL získaného výsledku zkopírovat do zadání. Speciálně parametry dotazu popisující vzdálenost slov, případně jméno databáze je někdy potřeba přesunout před zmíněný parametr &request= .

URL specifikace získané z konkrétního dotazu v ALEPHu vždy obsahují dlouhou specifikaci seance. Webový agent tuto situaci nijak neřeší a záleží na uživateli, jak URL pro dotazy zadá. Zadané URL se totiž při každé činnosti přenáší k agentovi pomocí cookies. Cookies jsou speciální proměnné, které se objevily již u prvního prohlížeče Netscape. Tuto zvláštní proměnnou si webový prohlížeč je schopen (po zaslání ze serveru) uložit zpravidla na disk a při každé další interakci s určeným webovým serverem mu ji stále znovu zasílá. A právě tímto způsobem se agent psh vždy dozví, jaké URL má k termínům doplňovat. Životnost těchto cookies (tj. zadaného URL) je vždy dvě hodiny. Do této doby (při obvyklém nastavení webového klienta) není potřeba znovu zadávat URL dotazu, a to ani po ukončení práce webového klienta. Naopak, když chce člověk změnit používané URL pro odkazy, je nejlepší ručně vynulovat obsah cookies - konkrétně ta cookies, které jsou spojena s IP adresou počítače, na němž běží agent psh.

Uvedené snad zároveň vysvětluje, že po dobu životnosti cookies a hlavně životnosti seance v ALEPHu lze využívat URL, které obsahuje i specifikaci seance v ALEPHu. To je například výhodné pro implementace ALEPHu, kde pouze v rámci seance můžeme definovat některé specifické parametry. Pro jiné než experimentální používání agenta je ale nejvhodnější připravit si "odladěné URL" ve formě HTML souboru obdobně, jako to je pro NTK (dříve STK) na http://4izi.vse.cz/~jjkastl/psh/NTK anebo pro NKP na http://4izi.vse.cz/~jjkastl/psh/NKP.

Oba uvedené příklady jsou záměrně analogické tomu, co Národní technická knihovna zprostředkuje na své stránce "Prohlížení PSH" (při kliknutí na některý termín hesláře). Pokud si někdo srovná výsledky uváděné na této stránce NTK s výše připravenými URL specifikacemi dotazů do ALEPHu, zjistí drobné odlišnosti. Třeba již druhý termín "architektura a urbanismus" nejvyšší úrovni hesláře (poslední verze 2.1) dává jak v databázi STK Národní technické knihovny, tak v databázi NKC Národní knihovny vždy o jeden záznam rozdílné výsledky.

Pro databázi STK jsem totiž použil původní aspekt PSH  (tedy parametr &find_code=PSH), jak tomu bývalo pod DataFlexem. Ten je ale nyní v záznamech explicite uváděn v podpoli a možná je zamýšleno preferovat obecnější WKW. Jeden ze záznamů týkající se architektury a urbanismu má ovšem u předmětového hesla (pole 650) v podpoli 2 omylem uvedeno sph:

···
24500 |a Projektil 2002/2008 / |c Roman Brychta ... [et al.]
260   |a V Praze : |b Galerie Jaroslava Fragnera, |c 2008
300   |a 306 s. : |b il., fot. + |e 1 CD-ROM
500   |a Text též v angličtině
500   |a "Katalog vydán k výstavě v Galerii Jaroslava Fragnera ···
65007 |a architektura a urbanismus |x au |2 sph
655 4 |a monografie
7001  |a Brychta, Roman |7 js20090128001 |4 aut
···

Proto se ani "ručně" nedá záznam v ALEPHu vyhledat při volbě "Heslo PSH", ale obecně pro "Předmět" ano - viz "Základní vyhledávání" pro "Katalog NTK". Při jednoduché změně parametru (aspektu) na &find_code=WKW v úvodním (předpřipraveném) zadání URL se počty záznamů již shodují.

Stejným způsobem použitý předmětový aspekt WKW i úplně analogické URL pro Národní knihovnu se také neshoduje s výsledky na stránce "Prohlížení hesláře", neboť zde nejsou uváděny žádné nalezené záznamy. (Musím připomenout, že tomu tak bylo i v případech, kdy se pro jiné termíny záznamy z Národní knihovny na této stránce úspěšně objevovaly.) Pro architekturu a urbanismus se totiž najde v databázi NKC jeden záznam, který nemá tento termín hesláře (sousloví) uveden v poli 650 (podle formátu MARC21 ), ale v poli 964  ("Předmětová hesla podle staré metodiky"):

···
24510 |a Urbanismus a architektura studiových center / |c Jan Novák
260   |a Praha : |b Čs. televize, |c 1972 |f (SČT 19)
300   |a 54, [2] s. : |b [56] s. obr. a fot. příl. ; |c 4°
500   |a Vyd. Studijní odbor Čs. televize ve spolupráci s Výzkum. ústavem ···
500   |a Přehl. lit.
500   |a Vysvětl. k obr.
500   |a Pro vnitř. potřebu
500   |a Obálka: Otto Řepa
7102  |a Československá televize |7 ko2001100007
964   |a Studia televizní - výstavba - architektura a urbanismus - výzkumy
964   |a Stavby studiové - koncepce - vývoj - výzkumy
964   |a Studia rozhlasová - výstavba - architektura a urbanismus - výzkumy
···

Protože záznamy v Národní knihovně přesně nespecifikují termíny Polytematického strukturovaného hesláře (podle podpole 2 pole 650 se převážně využívá CZENAS), je asi třeba akceptovat i záznamy, které mohou případně být diskutabilní z hlediska přesnosti vyhledání. Zmíněný záznam získaný při vyhledání údajů přes "Předmět(klíčová slova)" by se patrně měl objevit i mezi záznamy z "Katalogu Národní knihovny ČR" na zmiňované stránce NTK "Prohlížení hesláře".

Na závěr bych si dovolil uvést jednu technickou poznámku. Jak je typické pro správce počítačových systémů, již několik měsíců nejasně hovoří o tom, že zde zmiňované webové agenty nebudou časem moci využívat uživatelé mimo VŠE. Proto jsem "cvičně" agenty zprovoznil i na jiných místech a odkazy jsou pak zcela shodně uvedeny i na domácí stránce  http://nb.vse.cz/~jjkastl/psh/.

Hodnocení: 
Zatím žádné hodnocení
KASTL, Jan. Polytematický strukturovaný heslář a vyhledávání v ALEPHu. Ikaros [online]. 2009, ročník 13, číslo 11 [cit. 2024-10-11]. urn:nbn:cz:ik-13262. ISSN 1212-5075. Dostupné z: http://ikaros.cz/node/13262

automaticky generované reklamy

Máme zde 1 komentář

Vyhledávání v katalogu NTK podle hesel PSH je opravdu prováděno pomocí kódu "WKW" v poli "code", který nabízí nejlepší pokrytí a přesnost z možností vyhledávání v Alephu podle předmětových hesel PSH. Starší způsob používání kódu "PSH" v poli "find_code", který je používán například v Aleph OPACu, nedosahuje takového pokrytí v navrácených záznamech. Je pravda, že všechny typy vyhledávání pomocí hesel PSH přes indexy v Alephu NTK (jak přes Aleph OPAC, tak Aleph X Services) jsou problematické a nedosahují optimální přesnosti a pokrytí.

Vyhledávání v katalogu Národní knihovny probíhá pouze asi u 1/3 hesel PSH, k nimž byl nalezen jejich ekvivalent v předmětových heslech NK ČR. Před vyhledáváním je heslo PSH "přeloženo" na namapovaný ekvivalent ze souboru předmětových hesel NK ČR, které je potom použito stejně jako v případě vyhledávání z katalogu NTK (pole "code" je obsazeno kódem "WKW").

Záznam obsahující v 650 $2 chybně "sph" byl opraven na "psh".