Sorry, you need to enable JavaScript to visit this website.

Indexování s využitím tezauru v maďarské praxi

Čas nutný k přečtení
8 minut
Již přečteno

Indexování s využitím tezauru v maďarské praxi

0 comments
Anglicky
English title: 
Indexing with Thesaurus in Hungarian Practice
English abstract: 
The article discusses specific features of a thesaurus and provides an overview of how a particular thesaurus is used in Hungarian practice.

Úvod

Tezaury (z latiny thesaurus) v různých jazycích jsou známy od středověku. Jednalo se o univerzální vědecké spisy, encyklopedická díla a zejména velké slovníky, nicméně v původním významu je tezaurus i výrazem pro pokladnici. Ostatně podle Ungváryho (2001) i „[v] počítačovém zpracování faktů a v jazykovědě tezaurus známe jako slovní zásobu nebo slovník”. Slovní zásoba v případě tezaurů znamená stručnou lexikologii, tj. sbírku slov. Ungváry (2001) dále uvádí, že „[v] jazykovědě – zvláště v generativní mluvnici – rozumíme tezaury slovníky, jež byly zhotoveny pro lingvistické použití; takové, ve kterých ke slovům připojujeme speciální sémantické, syntaktické a morfologické informace”. Pro tezaury je charakteristické shromažďování rozmanitosti, úplnosti či všech možných použití.

Tezaury jako slovníky lexikálních jednotek

V knihovnických systémech hrála vždy významnou roli identifikace dokumentů. Pro tento účel jsou využívány i tezaury, a to konkrétně v oblasti obsahové analýzy a vyhledávání dokumentů. Tezaury jsou řízené a měnitelné slovníky lexikálních jednotek (tj. deskriptorů a nedeskriptorů) a jsou založené na přirozeném jazyku. Lexikální jednotky v tezaurech reprezentují jednotlivé pojmy, přičemž podstatné je hledání nejvýznamnějších sémantických souvislostí mezi nimi. Lexikální jednotky mohou být složeny z písmen, čísel a jiných znaků (MSZ 3418-87). V tezauru jsou lexikální jednotky uváděny podle vzájemných vztahů (například nadřazenosti a podřazenosti).

Podle MSZ 3418-87 mohou lexikálními jednotkami, které slouží ke zpracování a vyhledání informací, být:

  • odborný výraz (termín),
  • kombinace termínů,
  • vlastní jméno,
  • jméno značky,
  • zkratka.

Podle Platthyové (2009) jsou deskriptory obsahově a formálně zvláštní lexikální jednotky tezauru, mezi kterými vždy vyznačujeme nejvýznamnější pojmové souvislosti. Ungváry (2001) zdůrazňuje, že deskriptory jsou obecně takové výrazy, které můžeme používat jako selekční jazyk k popisu obsahu dokumentů.

V normě MSZ 3418-87 je uvedeno, že „[d]eskriptor je taková lexikální jednotka tezauru, která je bezprostředně použitelná ke zpracování a vyhledávání informací.”

Táž norma uvádí, že nedeskriptory jsou naopak vhodné pouze ke zpracování a vyhledávání informací prostřednictvím deskriptorů. Ungváry a Orbánová (2001) upřesňují, že nedeskriptory jsou takové výrazy, které mohou být synonymy nebo mohou být za synonyma pokládány. Nedeskriptory mohou být i speciální termíny.

Slovní zásoba tezauru

Deskriptory a nedeskriptory mohou být jednočlenné nebo mnohočlenné výrazy. Lexikální jednotky vždy uvádíme ve standardizovaném gramatickém tvaru daného vědního oboru. V jednotlivých vědních oborech může být způsob vyjadřování velmi komplikovaný, může se jednat o složeniny a syntagmata sestávající z více slov. Termíny vědních oborů můžeme užívat jako podstatné jméno nebo substantivní syntagma. V odůvodněných případech je povoleno i použití vlastních jmen.

Takto tvořené lexikální jednotky mohou být uvedeny:

  • v nominálním tvaru (podstatné jméno, přídavné jméno, číslovka),
  • v prvním pádě, tj. v nominativu (v nesklonné podobě),
  • v jednotném čísle,
  • jako nesklonné přívlastková syntagma či konstrukce místo skloňovatelného přivlastňovacího přívlastku (Ungváry, 2002).

Množné číslo výrazu můžeme používat tehdy, pokud neexistuje jednotné číslo daného výrazu nebo výraz v jednotném čísle má – oproti výrazu v množném čísle – odlišný význam. V maďarštině můžeme množné číslo používat v případě jazykové rodiny (např. u germánských jazyků) nebo k vyjádření jmen různých národů (Němci, Sikulové).

Zkratky používáme v odůvodněných případech, kdy jsou v praxi používány častěji než úplný tvar výrazu. V případě číslovek užíváme arabské číslice.

Lexikální jednotky mohou být mnohovýznamové výrazy (vyskytují se jevy homonymie i polysémie). Aktuální význam mnohovýznamových termínů uvádíme v závorkách za lexikálními jednotkami.

Obecně platí, že k lexikálním jednotkám je možné připojovat definice, vysvětlivky a poznámky. Poznámka upřesňuje konkrétní způsob použití lexikální jednotky, vysvětlivka a definice zase popisují přesný význam lexikální jednotky. Vysvětlující poznámkou může být i známý cizojazyčný ekvivalent daného výrazu.

Principy selekce obsahově autentické lexikální jednotky jsou následující (Ungváry, 2002):

  • jednoznačnost,
  • spolehlivost,
  • stručnost a výstižnost,
  • použitelnost,
  • vhodná pojmová kategorie.

Jednoznačnost znamená, že vybraná lexikální jednotka je srozumitelná i bez kontextu, tedy sama o sobě.

Výběr lexikální jednotky je spolehlivější, je-li specifický a vyjadřuje-li přesně obsah dokumentu.

Lexikální jednotky se musí nacházet ve stručné a přesné formě, např. místo  syntagmatu stavbabytů je vhodnější uvést výraz bytovávýstavba.

Lexikální jednotky splňují podmínky v širokých kruzích známého jazykového úzu (terminologie) vědního oboru (odborný slang musíme opominout).

V dokumentu může být stejný předmět charakterizován různými pojmovými kategoriemi. Těmi mohou být například proces/působení, materiál/surovina, zařízení/stroj/nástroj/předmět, živočich/člověk či vlastnost/stav (Ungváry, 2002).

Lexikální jednotku vždy vybíráme v souladu s pojmovou kategorií, o níž předmět nebo problém dokumentu pojednává (např. filmovací přístroj [kategorie stroje/nástroje], filmování [kategorie procesu]).

V případě výrazů, které se vyskytují velmi často a jsou příliš obecné, musíme tyto výrazy specifikovat tak, že je kombinujeme s jinými výrazy. Tímto způsobem tvoříme složené termíny. Příliš specifické nebo zřídkakdy se vyskytující výrazy je naopak potřeba zobecnit. V tomto případě k nim připojíme synonyma nebo výrazy souznačné (Ungváry, 2001).

Existují obory, v nichž se pro nedostatek výrazů využívají perifráze. Ty však nemohou být lexikálními jednotkami, proto musíme místo perifrází tvořit termíny.

Podle Plathyové (2009) lexikální jednotky vždy vytváříme s využitím aktuálních informačních pramenů obsahujících důležité informace z daného oboru.

Vícejazyčný tezaurus

V případě vícejazyčného tezauru se snažíme vytvořit samostatný způsob označení, který je nezávislý na jazyku, protože partnerské používané pojmové systémy a soustavy znaků mohou být rozdílné. Tato rozdílnost také představuje hlavní problém při přípravě vícejazyčného tezauru. Znamená to, že překlady – jsou-li budované na stejné struktuře – nebo relace mezi stejnými pojmy se v různých jazycích liší.

Podle Förhécze a Mészárose (2007) najdeme v případě, kdy je struktura jednotná a vícejazyčnost znamená jenom překlad pojmů, v různých jazycích synonyma a vytvoříme symetrický tezaurus.

Jestliže jsou ovšem ve vícejazyčném tezauru vztahy mezi jednotlivými lexikálními jednotkami, které reprezentují pojmy, odlišné nebo jestliže některé pojmy (ani lexikální jednotky, které je reprezentují) neexistují v každém jazyce, vzniká  tezaurus asymetrický.

Proti symetrickému tezauru stojí několik faktů: Termíny nelze vždy přeložit do jiného jazyka. V tom případě se snažíme tvořit nové výrazy, syntagmata. Není-li to možné, vytvoříme k reprezentaci výrazu nový pojem. Existují taktéž problémy s tím, že pojmový systém je v různých jazycích divergentní. Například v Maďarsku tiskárnu zařadíme do průmyslu, ale v západní Evropě ji zpravidla zařadí do oblasti médií. Takové odchylky se ovšem vyskytují zřídka. V případě, že nastanou, používáme jednotnou strukturu, ale jednotlivé odchylky označíme (Förhécz, 2007).

Sémantika tezauru předpokládá, že každý pojem má autentické označení. To znamená i to, že v překladu tezauru používáme označení pojmu, které je v daném případě akceptované. Navíc je v každém jazyce potřeba shromáždit synonyma daných výrazů (Förhécz, 2007).

Tezaurus Národní knihovny Széchényího v Maďarsku

V Maďarsku bylo zhotoveno již více než padesát tezaurů, reálně je jich používáno přibližně dvacet (Ungváry, 2001). První tezaurus (všeobecných technických pojmů) byl zhotoven v roce 1970. V následujících letech byly zhotovovány další tezaury, například v letech 1972 až 1973 se jednalo o tezaurus pojmů výpočetní techniky a informatiky. V roce 2000 byl dokončen tezaurus Národní knihovny Széchényího. V maďarštině nese název OSZK-thesaurus, jedná se o tzv. Veřejný tezaurus. Má více verzí, verze 3.0 byla dokončena na konci roku 2002.

Veřejný tezaurus má důležité dodatky:

  • tzv. „Taxaurus” obsahuje pojmy živočichů, vnitřních orgánů a tkání,
  • „Geotaurus a Geohistaurus” obsahují geografické a historicko-zeměpisné pojmy užívané od starověku dodnes (Ungváry, 2002).

Maďarský tezaurus je určen pro veřejné knihovny a je vytvořen v souladu s mezinárodní normou ISO 2788-86 a maďarskou normou MSZ 3418-87.

Veřejný tezaurus je univerzální tezaurus, který je zaměřen na oblasti techniky, agronomie, ekonomie, přírodovědy a společenských věd. Je vhodný k indexaci monografií, periodik, tiskovin, plakátů, audiovizuálních dokumentů, skladeb, divadelních dokumentů, antických knih, manuskriptů, podnikových a jiných publikací (Ungváry, 2002). Tentýž autor podotýká, že do tezauru byly zařazeny zejména  důležitější výrazy, které jsou využitelné k indexaci a vyhledávání dokumentů ve veřejných knihovnách. Uvádí také, že jednotlivé výrazy se objevují v různých formách.

Lexikálními jednotkami v tezauru mohou být:

  • odborné výrazy (např. údajová základna, zátopa, hodnota),
  • vědní obory, vědecké disciplíny (např. agronomie),
  • působení (např. nákup, doprava),
  • výrobky, zboží, materiály, předměty, stroje, zařízení (např. potravina, vozidlo, oblečení),
  • rostlina, zvíře, orgán (např. ovoce, pes, část těla, sval),
  • instituce, korporace, organizace, obchody, pohostinské podniky (např. soud, gymnázium, restaurace),
  • lid, etnická skupina, jazyky (např. Sikulové, Židé, švédština),
  • čas, doba, období (např. novověk, renesance),
  • formální výrazy (např. dokumentární film, román, hudební dílo),
  • duchovní řád (např. benediktýn) .

Vlastní jména jsou pouze dvojí:

  • země, geografické jména, historicky zeměpis (např. Rakousko, Evropa),
  • posvátné knihy, které jsou i v Mezinárodním desetinném třídění (např. Bible, Tóra).
Literatura:
  • FÖRHÉCZ, András, MÉSZÁROS, Tamás, 2007. Többnyelvű tezaurusz építése és szolgáltatása webes környezetben. In Networkshop2007 [online]. [cit. 2009-11-09]. Dostupné z: http://nws.niif.hu/ncd2007/docs/ehu/107.pdf
  • MSZ 3418-87. Magyarnyelvűinformációkeresőtezaurusz.Szerkezete,részeiésformái. Budapest: Magyar Szabványügyi Hivatal.
  • PLATTHY, Zsuzsanna, 2009. Atezauruszfelépítése,használata [online]. [cit. 2009-11-09]. Dostupné z: http://hetenyi-eu.sulinet.hu/tezaurusz_html/tez/bevezeto.html
  • UNGVÁRY, Rudolf (összeáll.), 2000. OSZK Tezauruszalkalmazásiéskarbantartásiszabályzat [online]. . Budapest [cit. 2009-11-09]. Dostupné z: http://mek.oszk.hu/00000/00075/doc/alkalmaz.doc
  • UNGVÁRY, Rudolf (főszerk.), 2002. OSZKTEZAURUSZ/KÖZTAURUSZ:AzOrszágosSzéchényiKönyvtárésaközművelődésikönyvtárakátfogótezaurusza [online]. 3.0 változat. Budapest: MKE-OSZK [cit. 2009-11-09]. Dostupné z:
  • http:// mek.oszk.hu/00700/00769/html 
  • UNGVÁRY, Rudolf, 2004. Tezaurusz és ontológia avagy a fogalmi ismertetőjegyek generikus öröklődésének formalizálása. TudományosésMűszakiTájékoztatás [online]. 2004, 51(5) [cit. 2009-11-09]. Dostupné z: http://tmt.omikk.bme.hu/show_news.html?id=3615&issue_id=450
  • UNGVÁRY, Rudolf, ORBÁN, Éva, 2001. Osztályozásésinformációkeresés:kommentáltszöveggyűjtemény[online]. Budapest: OSZK [cit. 2009-11-09].  Dostupné z: http://mek.niif.hu/01600/01683/pdf/01683-1.pdf (1. köt. Az osztályozás és elmélete) a http://mek.niif.hu/01600/01683/pdf/01683-2.pdf (2 köt. Az információkeresés és elmélete)
Poznámka: Z maďarštiny přeložila Margit Prókaiová, redakci překladu provedli Pavel Farkas a Linda Jansová.
Klíčová slova: 
Hodnocení: 
Zatím žádné hodnocení
BÁJI-TÓTH, Erika. Indexování s využitím tezauru v maďarské praxi. Ikaros [online]. 2012, ročník 16, číslo 2 [cit. 2024-03-28]. urn:nbn:cz:ik-13819. ISSN 1212-5075. Dostupné z: http://ikaros.cz/node/13819

automaticky generované reklamy