Sorry, you need to enable JavaScript to visit this website.

Znalostní vyhledávání v katalozích Knihovny Akademie věd

Čas nutný k přečtení
5 minut
Již přečteno

Znalostní vyhledávání v katalozích Knihovny Akademie věd

0 comments
Autoři: 
coverpix2.jpgNa jaře letošního roku byl na server Knihovny Akademie věd České republiky (KNAV) v rámci projektu LINCA plus dodán relativně jednoduchý pro používání, rychlý a velmi efektivní znalostní vyhledávací systém. Jeho možnosti zjistíte pouze v případě, že opravdu něco potřebujete najít. Ti, kteří jen zkouší, jak funguje, stěží mohou docenit jeho skutečné kvality. Pravděpodobně nejdůležitější vlastností systému je možnost zadat dotaz pomocí přirozeného jazyka a bez ohledu na případné překlepy. Nejnázorněji k tomuto účelu poslouží samotná obrazovka ze serveru KNAV, která obsahuje dotaz a k němu odpovídající výsledek.

On-line naleznete systém na webovských stránkách KNAV pod odkazem Souborný katalog - Excalibur. Vyhledávací systém nese označení RetrievalWare a je "vlajkovým systémem" společnosti Excalibur Technologies. Na počátku září budou prostřednictvím Excaliburu zveřejněna data přibližně třetiny (asi dvaceti) knihoven ústavů Akademie věd ČR.

Než se dostaneme k samotnému produktu, rád bych přiblížil, co se pod termínem "knowledge retrieval" skrývá. Domnívám se, že by bylo vhodné začít s definicí slova "knowledge" (znalosti) a několika srovnáními.

Znalosti

  • Znalosti jsou dnes zpravidla definovány jako přesné informace, které naplňují potřebu, napomáhají řešit problém, hrají kritickou roli v životě organizace a ovlivňují vše od rozhodování až po efektivnost pracovníků.
  • Webster´s New Encyclopedia Dictionary (1993) definuje slovo knowledge:
  • IT společnost používá jednoduchou definici - Knowledge is Intelligence put to work
  • Arthur Andersen (konzultační a poradenská firma) považuje znalosti jako Knowledge is information that has value
  • Pravděpodobně však nejjasnější definice znalostí pochází z dob daleko před informačním, elektronickým a nebo vůbec průmyslovým věkem. Sir Francis Bacon (1561-1626) napsal Knowledge is power. 1)
dokumenty_cas.gifZnalosti se ale obvykle ztrácí ve spoustě papírové dokumentace, elektronických archivech, knihovnách, podnikových sítích a intranetech a v neustále narůstajícím objemu externích informací, jakými jsou příchozí faxy, e-maily, novinkové služby a především informace na webu.

Termín Information glut (zahlcení informacemi) vystihuje skutečnost, kterou všichni známe z vyhledávání na Internetu. Pokud používáte Internetové vyhledávací systémy (Yahoo!, Altavista apod.), víte, že orientace v samotném výsledku hledání je mnohdy téměř nemožná. Ochotu uživatele projít vyhledané dokumenty vystihuje následující graf. Pokud si chcete v tomto okamžiku čtení přiblížit, o čem píši, doporučuji vám spustit nové okno prohlížeče a do některého z internetových fulltextových vyhledávacích služeb zapsat téměř libovolný dotaz. Pokud je odpovědí např: "Bylo nalezeno 12 936 stránek", narazili jste na problém, o němž je tento článek.

Znalosti versus informace

Jaký je tedy rozdíl mezi informacemi a znalostmi?

Informace není znalostí, pokud:

  • neuspokojují příslušnou potřebu.
  • neodpovídá na otázku.
  • neřeší problém.
  • není relevantní.
  • nemá konkrétní význam.
  • ji nemůžete použít.

Informace nemá hodnotu, dokud se nestane znalostí.

Pro srovnání vyhledávacích systémů lze použít výčet základních kriterií, přičemž poslední dvě (odezva a preciznost) jsou klíčovými, zejména v textovém vyhledávání, neboť reprezentují celkovou přesnost a efektivnost těchto systémů.

Kritéria informačního (znalostního) vyhledávacího řešení

  • Záběr – rozsah různých typů dat, ve kterých má být vyhledáváno. Je systém limitován na text nebo je schopen zvládnout různé typy digitálních medií?
  • Rychlost – jaká je doba mezi definicí dotazu a dodáním odpovědi?
  • Výstup – jaké jsou možnosti prezentace výsledku vyhledávání? Poskytuje systém přímý přístup do dokumentů a je schopen vyhodnocovat relevanci?
  • Možnosti – Jaké možnosti jsou poskytnuty uživateli pro definici dotazu? Jsou nezbytné hlubší znalosti dotazovacího jazyka nebo systém umožňuje zadat dotaz pomocí přirozeného jazyka?
  • Odezva – poměr všech relevantních dokumentů k dotazu ve vyhledaném souboru a dokumentů, které nebyli při vyhledávání nalezeny.
  • Preciznost – poměr vyhledaných dokumentů, které jsou relevantní odpovědí na zadaný dotaz, a vyhledanými dokumenty, které relevantní nejsou
Možnosti sestavení dotazu

Je skutečností, že v dnešní době, kdy lze využívání počítačů považovat za běžnou záležitost, není možné chtít po uživatelích složitě definované dotazy, které by vedly k relevantním výsledkům.

Nabídka definovat dotaz pomocí přirozeného jazyka je pravděpodobně v textovém vyhledávání na nejvyšší úrovni. V následující tabulce je znázorněn dotaz sestavený pomocí booleovských operátorů a k němu shodný dotaz v přirozeném jazyce, jehož zpracování umožňuje technologie semantické sítě. Výsledek vyhledávacího procesu musí být pochopitelně shodný. 2)

plain_sn.gif

V mnoha systémech je booleovský dotaz sestaven na základě vyplnění určitých políček, ale to je to samé. Měl by obsahovat všechny varianty údaje (to lze částečně nahradit tezaurem) a nesmí v něm být překlep nebo jiný tvar slova! (Časté překlepy mohou být opět zařazeny do odkazů tezauru, ale to není řešení.)



Excalibur RetrievalWare - znalostní vyhledávací systém založený na technologiích APRP (Adaptive Pattern Recognition Processing) a sémantické sítě.

Základní vlastnosti:

  • Vysoká úroveň relevance a rychlosti vyhledávání i z databází o objemu terabytů dat.
  • Schopnost zvládat soudržnost rychlosti vyhledávání ve velkých souborech dat při více-serverové a více-vláknové architektuře.
  • Schopnost spojit rozličné zdroje dat, typické pro podniková řešení, jakými jsou například data relační databáze, elektronické dokumenty a dokumenty snímané scannerem do plnotextové databáze pomocí technologie APRP.
  • Volba jednoduchého, uživatelům známého rozhraní webovského prohlížeče nebo zakomponovaného rozhranní v populárních prostředích jakými jsou groupware, workflow a dokument management systémy.
  • Vysoká úroveň spolehlivosti pomocí APRP tolerance chyb, umožňující uživateli vyhledat požadované informace bez ohledu na překlepy v zadávaném dotazu nebo v původním dokumentu v prohledávaných datech.
  • Indexace bez zásahu do dat, bez ohledu na jejich zdroj, umožňující jednoduchou implementaci a velmi nízká rizika projektu .

Exkluzivní technologie produktů Excalibur

aprp.gif

Trochu více o jedinečné technologii APRP a technologii sémantické sítě najdete zde

Jak jsem již zmínil, technologie APRP je schopna pracovat s jakýmkoliv typem digitálních dat. Nemusí jít tedy pouze o vyhledávání v textu. Na stéjné technologii existují systémy pro vyhledávání (porovnávání) obrazových souborů (produkt Excalibur Visual RetrievalWare) a indexování a porovnávání video sekvencí (Excalibur Screening Room).

Komentáře či dotazy můžete zaslat na mou adresu: kocourek@incad.cz

1) Getting started with Knowledge Management, Excalibur Technologies Co., 1998
2) Knowledge Retrieval Solutions, Excalibur Technologies Co., 1998

Hodnocení: 
Zatím žádné hodnocení
KOCOUREK, Pavel. Znalostní vyhledávání v katalozích Knihovny Akademie věd. Ikaros [online]. 1998, ročník 2, číslo 7 [cit. 2024-11-03]. urn:nbn:cz:ik-10254. ISSN 1212-5075. Dostupné z: http://ikaros.cz/node/10254

automaticky generované reklamy