Současnost sémantického webu

Abstract: 

The Semantic Web isn't new in information science. However, there still are only a few web pages where we can find the semantics today.

Úvod

Nejvýraznější článek pojednávající o sémantickém webu, jeho tvorbě a využití vyšel již před deseti lety. [1] Na webu je dnes k nalezení mnoho sémantických dokumentů. Nemusíme chodit daleko, abychom nějaký našli. Například Polytematický strukturovaný heslář (PSH) Národní technické knihovny [2] je celý psán v jazyce SKOS a představuje dobrou ukázku využití této technologie. I přes veškerou snahu však dodnes tvoří drtivou část webového obsahu pouze dokumenty, které téměř postrádají sémantiku a pro stroj jsou prakticky nečitelné.

Logo open source editoru Protége

Logo open source editoru Protége

Pro tvorbu sémantického webu lze využít i některého z dostupných softwarů. V současné době je nejvýraznějším a zároveň nejužívanějším z nich open source editor ontologií Protégé, vyvíjený na Stanford University ve spolupráci s University of Manchester. [3, 4] Protégé si může každý uživatel zdarma stáhnout přímo na stránkách aplikace. Momentálně tento software využívá přes 170 000 registrovaných uživatelů.

Protégé představuje poměrně pohodlné řešení pro vytváření ontologií. V této aplikaci jednoduše vytváříte třídy, zadáváte jim omezení a přidáváte individua. Instance tříd se definují zvlášť, řadí se do tříd a určují se jejich vlastnosti. Protégé ze zadaných informací sám vytváří graf ontologie.

Editor ontologií Protégé kromě vytváření ontologií umožňuje i kontrolu logických chyb pomocí funkce Reasoner. Vytvořenou a zkontrolovanou ontologii je možné uložit hned v několika jazycích sémantického webu. Stejně jako umožňuje Protégé vytvářet nové ontologie, je zde samozřejmě možné i otevírat a editovat ontologie dříve vytvořené.

Software Protégé představuje užitečného pomocníka při vytváření OWL ontologií pro sémantický web. Nevýhodou je však jeho poměrná složitost. Práce s Protégé vyžaduje zpočátku dostatek trpělivosti, než se ho člověk naučí správným způsobem využívat.

Technologie sémantického webu

Sémantický web se velice rychle vyvíjí, avšak ne příliš organizovaně. Co se technologií pro tvorbu sémantického webu týče, existuje dnes kromě poměrně univerzálních technologií [5] ještě veliké množství dalších, užívaných obvykle pro velmi specifické účely. Mezi výrazné patří například SKOS, Dublin Core, FOAF či GeoNames.

SKOS

SKOS (Simple Knowledge Organization System) [6-8] je poměrně běžný datový model používaný pro sdílení a propojování znalostních systémů, jako jsou tezaury, klasifikační schémata nebo řízené hesláře, prostřednictvím webu. SKOS představuje standardizovaný model pro přenos informací mezi různými skupinami či přímo na sémantický web. Skupinami využívajícími SKOS jsou obvykle kromě lidí zabývající se informatikou i knihovníci.

Při psaní SKOS dokumentu můžeme využít URI, která jsou popsána v Tabulce 1 [6, 7, 9].

Tabulka 1: URI používané v jazyce SKOS

URI

Popis

skos:Concept

třída umožňující tvrzení, že zdroj je sám konceptem

skos:ConceptScheme

umožňuje tvrzení, že zdroj je schématem

schema → rdf:type → skos:ConceptScheme

skos:inScheme

umožňuje tvrzení, že zdroj je schématem

něco → skos:inSchema → schema

skos:hasTopConcept

spojení mezi schématem a konceptem

skos:topConceptOf

nejvyšší koncept ve schématu

skos:altLabel

alternativní lexikální popisek zdroje

skos:hiddenLabel

neviditelný popisek (v případě možného špatného zapsání)

skos:prefLabel

preferovaný lexikální popisek zdroje

skos:notation

poznámka

skos:changeNote

informace pro účely správy a údržby

skos:definition

úplné vysvětlení významu pojmu

skos:editorialNote

informace poskytující pomoc při administraci z domova

skos:example

příklad využití

skos:historyNote

užitečné informace pro uživatele systému

skos:note

obecná dokumentace pro jakékoli účely

skos:scopeNote

částečné informace o plánovaném významu

skos:broader

širší pojem

skos:broaderTransitive

tranzitivní širší pojem

skos:narrower

užší pojem

skos:narrowerTransitive

tranzitivní užší pojem

skos:related

související pojem

skos:semanticRelation

sémantický vztah s

skos:Collection

sbírka

skos:OrderedCollection

přikázaná sbírka

skos:member

člen

skos:memberList

seznam členů

skos:broadMatch

širší zařazení

skos:closeMatch

uzavřené zařazení

skos:exactMatch

přesné zařazení

skos:mappingRelation

mapovací vztah s

skos:narrowMatch

užší zařazení

skos:relatedMatch

související zařazení

Technologii SKOS využívají asi nejvíce lidé zabývající se knihovnictvím. Pro účely zápisu databází publikací se SKOS skvěle hodí. Avšak pokud chceme vyjádřit složitější vztahy či různá omezení, není tento jazyk vhodnou volbou.

DCMI

DCMI (Dublin Core Metadata Initiative) [10-12] je standard určený pro popis dokumentů využívaný především v knihovnictví. Účelem DCMI je poskytnout jednoduchý standard, který by usnadnil vyhledávání, sdílení a správu informací.

Dublin Core dostal své jméno podle města Dublin ležícím ve státě Ohio, kde byl v březnu roku 1995 navržen. Původně obsahoval tento standard pouze 15 elementů, které by měly umožňovat dostačující popis dokumentu. Tyto elementy naleznete v Tabulce 2.

 

Tabulka 2: elementy jazyka DCMI

Element

Popis

Title

název zdroje

Creator

tvůrce obsahu zdroje

Subject

téma obsahu zdroje

Description

vysvětlení obsahu zdroje

Publisher

vydavatel zodpovědný za zpřístupnění zdroje

Contributor

spolupracovník, který přispěl k obsahu zdroje

Date

datum události, která se vyskytla během existence zdroje

Type

žánr nebo povaha obsahu zdroje

Format

fyzické nebo digitální provedení zdroje

Identifier

jednoznačný odkaz na zdroj v rámci daného kontextu

Source

odkaz na zdroj, ze kterého je popisovaný zdroj odvozen

Language

jazyk obsahu zdroje

Relation

odkaz na příbuzný zdroj

Coverage

rozsah nebo záběr obsahu zdroje

Rights

informace o právech vztahujících se k danému zdroji

Časem bylo zjištěno, že pouhých patnáct elementů pro popis zdroje nestačí. Seznam elementů byl tedy postupně rozšiřován a v dnešní době čítá devadesát sedm elementů [11]. I přes značné rozšíření se stále jedná o technologii určenou primárně pro zápis informací o publikacích na webu. Pro tento účel je proto Dublin Core velmi vhodnou volbou. Avšak pro popis čehokoli jiného se příliš nehodí.

FOAF

FOAF (Friend of a Friend) [13,14] je projekt věnovaný propojování lidí a informací prostřednictvím webu.

FOAF propojuje tři typy sítí:

· sociální sítě lidské spolupráce, přátelství a sdružování

· reprezentační sítě, které popisují zjednodušený pohled na nákres vesmíru v reálných pojmech

· informační sítě, které využívají propojování, stejně jako se používá na webu, ke sdílení samostatně publikovaných popisů tohoto sociálně orientovaného světa.

FOAF používá třídy, které jsou uvedeny v Tabulce 3, a vlastnosti, které naleznete v Tabulce 4.

Tabulka 3: Třídy používané v jazyce FOAF

Třída

Popis

Agent

agent - například člověk, organizace či skupina

Document

dokument

Group

skupina jednotlivých agentů

Image

obrázek

LabelProperty

RDF vlastnost s textovou hodnotou, popisek

OnlineAccount

online účet

OnlineChatAccount

online účet používaný pro chat

OnlineEcommerceAccount

online účet používaný pro elektronické obchodování

OnlineGamingAccount

online účet používaný pro hraní her

Organization

organizace

Person

člověk

PersonalProfileDocument

RDF dokument o osobním profilu jeho tvůrce

Project

projekt

Tabulka 4: Vlastnosti používané v jazyce FOAF

Vlastnost

Popis

Account

účet

accountName

název účtu

accountServiceHomepage

domovská stránka poskytovatele účtu

Age

věk

aimChatID

ID pro AIM uživatele

based_near

založeno blízko

Birthday

narozeniny

currentProject

současný projekt

Depiction

popis

Depicts

popisovaná věc

dnaChecksum

kontrolní součet pro DNA něčeho - vtip

familyName

příjmení

family_name

příjmení

firstName

křestní jméno

Focus

zaměření

fundedBy

organizace financující projekt nebo osobu

Geekcode

geekkód uživatele

Gender

pohlaví

givenName

přidělené jméno

Givenname

přidělené jméno

holdsAccount

účet uživatele

Homepage

domovská stránka

icqChatID

ID pro ICQ uživatele

Img

obrázek

Interest

stránka o tématu, které uživatele zajímá

isPrimaryTopicOf

primární téma

jabberID

ID pro Jabber

knows

známá osoba

lastName

příjmení

logo

logo

made

něco vyrobeno agentem

maker

tvůrce

mbox

osobní e-mailová schránka

mbox_sha1sum

sha1sum URI mailové schránky uživatele

member

člen skupiny

membershipClass

třída uživatelů, kteří jsou členy nějaké skupiny

msnChatID

ID MSN chatu

myersBriggs

Myers Briggs (MBTI) osobní klasifikace

name

jméno

nick

nick

openid

OpenIT agenta

page

stránka dokumentu

pastProject

předešlý projekt

Phone

telefon

Plan

komentář

primaryTopic

hlavní téma stránky nebo dokumentu

Publications

odkaz na publikace uživatele

schoolHomepage

domovská stránka školy uživatele

sha1

sha1sum hash v hexadecimální soustavě

skypeID

ID pro Skype uživatele

Status

status

Surname

příjmení

Theme

téma

Thumbnail

odvozená miniatura

Tipjar

tipjar dokument uživatele popisující prostředky pro platby a odměňování

Title

titul uživatele

Topic

téma stránky dokumentu

topic_interest

něco v zájmu uživatele

Weblog

weblog něčeho

workInfoHomepage

domovská stránka práce uživatele

workplaceHomepage

domovská stránka pracoviště uživatele

yahooChatID

ID pro Yahoo

Jazyk FOAF byl vytvořen účelně pro popis uživatelů sociálních sítí, není proto úplně vhodný pro zápisu všech informací o čemkoli jiném. V kombinaci s ostatními technologiemi však představuje skvělého pomocníka, neboť obsahuje definované značky zvlášť určené pro zápis informací o člověku.

GeoNames

GeoNames [15,16] umožňují přidávat geoprostorové sémantické informace na Word Wide Web. Tato databáze zahrnuje v současné době přes osm milionů toponym ze všech států světa. Každé z nich má své vlastní jedinečné URL s odpovídajícím RDF webovým servisem. Ostatní služby popisují vztahy mezi toponymy. GeoNames představují nástroj pro zápis obrovského množství míst na Zemi. Stávají se tak velmi užitečným pomocníkem při vytváření sémantického webu.

Mikroformáty

Jednou z prvních vlaštovek v zadávání sémantiky na webu se stalo používání mikroformátů (zkratka μF). [17,18] Pomocí nich se vkládají metadata a další atributy přímo do (X)HTML kódu, a tím je stroji umožněno porozumět lépe webovému obsahu. Díky mikroformátům můžeme v (X)HTML kódu označovat, a stroji tak zpřístupnit, informace jako adresy, geoprostorové informace, události a podobně. Sémantická označení se vkládají přímo do atributů jednotlivých značek (X)HTML. Použitím mikroformátů tedy neměníme strukturu celého dokumentu, ale pouze strukturu zápisu jedné konkrétní informace, což je důvod pro označení mikro. Mikroformáty představují jakýsi můstek mezi současným World Wide Webem a webem sémantickým.

V současnosti je k dispozici velké množství různých mikroformátů a jejich počet neustále roste. Pro každý specifický okruh informací existuje speciální mikroformát. Například pro zadávání kontaktů, jako je adresa, telefon či e-mail, se používá mikroformát hCard [19], pro zápis událostí je možné použít hCalendar [20], při psaní životopisu se hodí hResume [21] apod.

Stejnou funkci jako mikroformáty plní i další dva standardy pro značení strukturovaných dat: mikrodata [22] a RDFa [23]. Webmasteři si mohou vybrat, který standard při tvorbě webu použijí. Všechny tři jsou dnes podporovány a spousta internetových vyhledávačů s nimi již dokáže pracovat. Na tuto situaci zareagovaly v nedávné době i tři největší současné vyhledávače Google, Bing a Yahoo! projektem Schema.org. Jako primární standard bylo ze tří nabízených alternativ vybráno používání mikrodat [24]. Mikrodata poskytují rovnováhu mezi rozšiřitelností RDFa a jednoduchostí mikroformátů. Na webových stránkách schema.org mohou webmasteři nálézt, jak mikrodata správně vkládat do (X)HTML kódu, aby je tyto prohlížeče mohly dobře interpretovat. [25]

Shrnutí

Sémantický web představuje rozšíření a zdokonalení World Wide Webu. Současný web se vesměs skládá pouze z webových dokumentů, které jsou pro stroje téměř nečitelné. Sémantický web přináší revoluční myšlenku vyjádření a zpracování dat za pomoci RDF trojic subjekt - vlastnost - objekt. Nedostižnou výhodou takto zapsaných dat je jejich snadná zpracovatelnost stroji. Myšlenka sémantického webu zahrnuje i představu, že by se jednou mohl vymanit z virtuální říše a stát se součástí našeho fyzického světa. [1]

V současné době představuje asi nevyužívanější a nejrozšířenější technologii sémantického webu OWL. [5] Malou nevýhodou tohoto jazyka je poměrně nepříjemný a složitý způsob zápisu jednotlivých informací. Ta odpadá při použití softwaru pro vytváření OWL ontologií, kde nemusíme data pro sémantický web psát ručně, ale pouze je snadno naklikáme a software poté kód vytvoří za nás. Těchto softwarů existuje již několik a asi nejvýraznějším a nejpoužívanějším z nich je volně dostupný editor ontologií Protégé [3], vyvíjený na Stanford University ve spolupráci s University of Manchester.

Technologie typu OWL mohou být použity pro zápis prakticky jakékoli informace na webu. Mimo takto univerzálních technologií však existují i technologie vhodné pouze pro některé skupiny uživatelů se specifickými požadavky. Mezi tyto technologie patří například SKOS [6] či Dublin Core [10], které jsou využívány hlavně pro zápis knihovnických dat.

V dokumentech pro sémantický web bývají často použity i technologie určené pro vyjádření pouze určitých informací. Takovými jsou například technologie FOAF [13], určená pro popis uživatelů sociálních sítí a poskytující tak speciální třídy a vlastnosti pro vyjádření informací o člověku, či GeoNames [15], jež slouží pro vyjádření geoprostorových sémantických informací.

I přes snahu vývojářů webu není dodnes sémantický web realizován v plném rozsahu. Existují pouze samostatné projekty, které využívají technologií sémantického webu. Jakousi první vlaštovku pro přeměnu současného World Wide Webu na web sémantický představuje používání mikroformátů [17], RDFa [23] a mikrodat [22]. Z nich byly jako primární standard vybrány mikrodata a jak správně je používat mohou webmasteři najít na stránkách schema.org. Tento projekt vznikl kvůli zefektivnění vyhledávání především pomocí třech současně nejvýznamnějších internetových vyhledávačů Google, Bing a Yahoo!.

Použité a citované zdroje:
  1. Berners-Lee, T., J. Hendler, and O. Lassila, The Semantic Web. Scientific American, 2001. 284(5): p. 34-+. ISBN: 0036-8733
  2. Polytematický strukturovaný heslář, Národní technická knihovna. Dostupné z adresy: http://psh.ntkcz.cz/skos/
  3. The Protégé Ontology Editor and Knowledge Acquisition System.  2011; Dostupné z adresy: http://protege.stanford.edu/
  4. Knublauch, H., et al., The Protege OWL Plugin: An open development environment for Semantic Web applications, in Semantic Web - Iswc 2004, Proceedings, S.A. McIlraith, D. Plexousakis, and F. VanHarmelen, Editors. 2004. p. 229-243. ISBN: 3-540-23798-4. DOI: 10.1007/978-3-540-30475-3_17
  5. Motejlková, A., Technologie sémantického webu, in Ikaros. 2011. Dostupné z adresy: http://www.ikaros.cz/node/7162
  6. SKOS Simple Knowledge Organization System, A. Miles and S. Bechhofer, Editors. 2009, W3C. Dostupné z adresy: http://www.w3.org/TR/skos-reference/
  7. SKOS Core Guide, A. Miles and D. Brickley, Editors. 2005, W3C. Dostupné z adresy: http://www.w3.org/TR/2005/WD-swbp-skos-core-guide-20051102/
  8. van Assem, M., et al., A method to convert thesauri to SKOS, in Semantic Web: Research and Applications, Proceedings, Y. Sure and J. Domingue, Editors. 2006. p. 95-109. ISBN: 3-540-34544-2. DOI: 10.1007/11762256_10.
  9. SKOS Simple Knowledge Organization System Namespace Document - HTML Variant, A. Miles and S. Bechhofer, Editors. 2009, W3C. Dostupné z adresy: http://www.w3.org/TR/skos-reference/skos.html
  10. DCMI. The Dublin Core® Metadata Initiative. Dostupné z adresy: http://dublincore.org/
  11. Nič, M. Dublin Core and DCMI Metadata Reference. Dostupné z adresy: http://zvon.org/comp/r/ref-Dublin_core.html
  12. Weibel, S., The Dublin Core: A simple content description model for electronic resources. Bulletin of the American Society for Information Science, 1997. 24(1): p. 9-11. ISBN: 0095-4403. DOI: 10.1002/bult.70
  13. The Friend of a Friend (FOAF) project. Dostupné z adresy: http://www.foaf-project.org/
  14. Brickley, D. and L. Miller, FOAF Vocabulary Specification 0.98. 2010.
  15. GeoNames. Dostupné z adresy: http://www.geonames.org/
  16. GeoNames Ontology. Dostupné z adresy: http://www.geonames.org/ontology/documentation.html
  17. microformats. Dostupné z adresy: http://microformats.org/
  18. Khare, R., Microformats - The next (small) thing on the semantic Web? Ieee Internet Computing, 2006. 10(1): p. 68-75. ISBN: 1089-7801. DOI: 10.1109/mic.2006.13
  19. Çelik, T. and B. Suda. hCard 1.0. Dostupné z adresy: http://microformats.org/wiki/hcard
  20. Çelik, T. and B. Suda. hCalendar 1.0. Dostupné z adresy: http://microformats.org/wiki/hcalendar
  21. King, R. hResume. Dostupné z adresy: http://microformats.org/wiki/hresume
  22. HTML Microdata, I. Hickson, Editor. 2011. Dostupné z adresy: http://www.w3.org/TR/microdata/
  23. RDFa Primer, B. Adida and M. Birbeck, Editors. 2008. Dostupné z adresy: http://www.w3.org/TR/xhtml-rdfa-primer/
  24. schema.org FAQ. 2011, google.com. Dostupné z adresy: http://www.google.com/support/webmasters/bin/answer.py?answer=1211158
  25. Getting started with schema.org.  2011; Dostupné z adresy: http://schema.org/docs/gs.html
Motejlková, Anna. Současnost sémantického webu. Ikaros [online]. 2011, roč. 15, č. 11 [cit. 02.09.2014]. Dostupný na World Wide Web: <http://www.ikaros.cz/node/7227>. urn:nbn:cz:ik‐007227. ISSN 1212-5075.
Průměr: 2.7 (hlasů: 3)

automaticky generované reklamy