Čas nutný k přečtení

18 minut

Tisk

a- a+

Již přečteno

Vybrané aplikace metadatového formátu TEI

0 comments

Anglicky

English title:

Selected applications of metadata format TEI

English abstract:

<p>This article presents selected applications of descriptive metadata format TEI - Oxford Text Archive (OTA) and Corpus Encoding Standard (CES). </p>

Autoři:

Synková, Veronika

Vydání:

2008, ročník 12, číslo 6

Rubrika:

Informační technologie a elektronická komunikace

Poznámka redakce: Článek je tvořen vybranými a upravenými kapitolami z rigorózní práce autorky, která byla obhájena na Ústavu informačních studií a knihovnictví Filozofické fakulty Univerzity Karlovy v Praze v listopadu 2007.

Bibliografický záznam původní práce:

SYNKOVÁ, Veronika. Aktuální problémy identifikace a popisu webovských informačních zdrojů [Actual problems of identification and description of web information resources]. Praha, 2007. vi, 161 s., 26 s. příloh. Rigorózní práce. Univerzita Karlova v Praze, Filozofická fakulta, Ústav informačních studií a knihovnictví, 2006. Konzultant rigorózní práce PhDr. Eva Bratková.

Úvod

Metadatové formáty Dublin Core, TEI a EAD patří mezi nejpoužívanější popisné metadatové formáty. Tento článek navazuje na první díl, ve kterém byly představeny aplikace formátu Dublin Core, a zabývá se aplikacemi formátu TEI, resp. hlaviček TEI, které jsou jeho součástí. Vybránými aplikacemi jsou databáze Oxfordského textového archivu (OTA) a formát pro popis korpusů CES.

Hlavičky TEI a jejich aplikace

Formát Iniciativy pro kódování textů (Text Encoding Initiative, TEI, http://www.tei-c.org/) je jedním z nejstarších metadatových schémat. Práce na tomto formátu započaly v roce 1987 v rámci mezinárodního výzkumného projektu vedeného Asociací pro využití počítačů v humanitních vědách ACH (Association for Computers in Humanities), k níž se přidaly Asociace pro využití počítčů v literatuře a lingvistice ALLC (Association for Literary and Linguistic Computing) a Asociace pro počítačovu lingvistiku ACL (Association for Computational Linguistics) (MIT Libraries, 2004). V roce 2000 vzniklo mezinárodní neziskové konsorcium TEI, které nadále udržuje a rozvíjí formát TEI (Text Encoding Initiative, 2007b).

TEI je rozsáhlý formát pro popis všech typů textových i netextových objektů. Používá se především v oblastech literatury, lingvistiky a humanitních věd (Romary, 2004). První koncept formátu TEI byl zveřejněn v roce 1990. Od té doby byl formát již několikrát aktualizován. Původně vycházel ze SGML, nyní se již orientuje na standarty XML, W3C Scheme nebo Relax NG Scheme (Burnard, 2005).

Jednou z částí formátu TEI je hlavička TEI, která obsahuje všechny prvky a údaje sloužící bibliografickému popisu zdroje (Text Encoding Initiative Consortium, 2007a). Hlavička TEI se vztahuje vždy k jedné popisné jednotce, která může být ale složena z řady jednotek nižší úrovně. V případě složeného textu se hlavní část opakuje pro každý jednotlivý text (Humanities Text Initiative, 1993).

Specifickou skupinu hlaviček TEI tvoří nezávislé hlavičky TEI, které se používají při tvorbě databází vzdálených zdrojů, na které odkazují. Lze je tedy použít pro popis elektronických zdrojů off-line i on line. Nezávislé hlavičky TEI mají stejnou strukturu jako hlavičky TEI. Mají pouze více povinných a doporučených prvků a měly by obsahovat více strukturovaných informací než volného textu.

Hlavičky TEI jsou uzavřené mezi párovým tagem <teiHeader>. Skládají se ze čtyř části, které obsahují informace o souboru, způsobech kódování, věcném profilu textu a historii změn zdroje. Všechny čtyři části jsou dále hierarchicky členěné.

Část popis souboru je uzavřena v tagu <fileDesc>. Nese popisné údaje o popisované entitě, ze kterých může být sestavena citace nebo které může použít knihovník pro vytvoření katalogizačního záznamu. Popis obsahuje také informace o zdrojích, ze kterých je popisovaný zdroj odvozen. Tato část je povinná. Následující tři části jsou volitelné.

V druhé části popis kódování, ohraničné tagy <encodingDesc>, jsou informace o tom, zda a jak byl zdroj modifikován vzhledem k původnímu zdroji (zda došlo ke změně kódování, k transkripci nebo jiným podobným změnám textu).

Profil textu v tagu <profileDesc> obsahuje doplňkové nebibliografické popisné a kontextové informace o textu, např. informace o jazyku zdroje, situaci vzniku. Jsou zde také uvedeny věcné výrazy z různých věcných klasifikací a tezaurů.

Poslední část uvozená <revisionDesc> je věnována evidenci změn v průběhu vzniku dokumentu nebo jeho modifikací. Tato část je zejména důležitá v případě, kdy je nutné odlišit a identifikovat různé verze jednoho zdroje.

Vzhledem k tomu, že každá z výše uvedených čtyř částí má své dceřiné prvky, může být hlavička TEI ve své maximální podobě velmi obsáhlá. Jak již však bylo zmíněno, povinná je jen její velmi malá část (Text Encoding Initiative Consortium, 2007a).

Formát TEI je používán v řadě rozličných projektů a systému. Kromě projektů, které zaštiťují univerzity a obdobné vzdělávací instituce, je mezi nimi možné najít i projekty komerčních institucí (Text Encoding Initiative Consortium, 2001). Co se týče předmětové orientace souvisejících projektů, převládají projekty zaměřené na literární a lingvistické texty, historické materiály, korespondenci a také na jazykové korpusy. Objevují se ale také projekty orientované na náboženské texty, hudbu nebo filosofii.

Problematice popisu rukopisů se původně věnoval projekt MASTER (Manuscript Access through Standards for Electronic Records), na jehož řešení spolupracovala také Národní knihovna České republiky (Uhlíř, 1999). Formát MASTER, který vzešel z tohoto projektu, vycházel z formátu TEI. Popis rukopisů je natolik významnou oblastí popisu, že se formát MASTER stal součástí formátu TEI od verze TEI P5.

Následující text představí britský digitální archiv elektronických textů OTA a standard pro kódování korpusů CES.

Oxfordský textový archiv

Oxfordský textový archiv (The Oxford Text Archive, OTA, http://ota.ahds.ac.uk/) založil v roce 1976 Burnard Lou v rámci programu Oxfordská digitální knihovna (Oxford Digital Library, ODL). OTA je britský digitální archiv elektronických textů a lingvistických korpusů, který slouží akademickým pracovníkům pro výuku a vědecké účely. OTA neprodukuje žádné texty, pouze přebírá a ukládá existující texty (Oxford Text Archive, 2006).

Činnost OTA je sponzorována z několika zdrojů. Hlavní partnerskou organizací je od doby jeho vzniku v roce 1996 Služba pro data v oblasti umění a humanitních vědách (Arts and Humanities Data Service, AHDS), která je sponzorovaná Spojenou komisí pro informační systémy (Joint Information Systems Committee). Dalšími sponzory jsou Středisko výpočetních služeb Oxfordské univerzity (Oxfort University Computing Services) a Výzkumná komise pro umění a humanitní vědy (Arts and Humanities Research Board).

OTA poskytuje uživatelům různé služby. Především zajišťuje přístup ke sbírkám elektronických textů, referenčních materiálů a jazykových korpusů. Velká část těchto materiálů je přístupná zdarma. Tyto texty a další ukládané materiály jsou katalogizovány pracovníky OTA. Podrobný popis podle pravidel ISBD(ER) je v metadatovém formátu TEI. Formát TEI slouží zároveň i pro strukturování textu. OTA nabízí také rady a pomoc při vytváření elektronických textů a konzultace při volbě softwaru a standardů pro tvorbu a uchovávání elektronických textů (Oxford Text Archive, 2006).

V současnosti obsahuje fond OTA zhruba 2 500 elektronických textů, slovníků, referenčních materiálů a jazykových korpusů v 26 jazycích. Jde především o literární texty různých žánrů a z různých časových období a materiály k oblasti lingvistiky. Texty jsou vybírány podle profilu fondu. Hodnotí se obsah textu, předpokládané využití textu a také stupeň a kvalita dokumentace, která je k textu připojená. Záleží také na formátu, ve kterém je text uložen. OTA se snaží zajistit trvalou archivaci uložených textů a jejich čitelnost. Bere ohled i na možné změny uložení a migraci dat při přechodu na novější technologie. Při výběru textů jsou preferovány texty uložené ve formátu TEI nebo XML, popř. SGML, k archivaci se přijímají také texty ve formátu LaTeX, RTF nebo prostý text. Formáty typu Word, databáze, tabulky apod. je možné upravovat. Jeden text může být v archivu uložen ve více formátech.

Autoři, jejichž díla jsou v archivu OTA ukládána, dávají OTA nevýhradní licenci na distribuci textu. OTA má díky této licenci právo kopírovat a zpřístupňovat uložený text. Pokud si to autor přeje, je možné přístup k textu omezit určitými přístupovými právy (Oxford Text Archive, 1998).

Popisné jednotky

Popisnými jednotkami v archivu OTA jsou elektronické texty, jednojazyčné i vícejazyčné slovníky, databáze, aplikační software, referenční materiály a jazykové korpusy. Jde tedy popis na úrovni jednotky, nejsou popisovány vyšší hierarchie typu sbírka apod. V případě lingvistických korpusů je za jednotku považován celý korpus (Oxford Text Archive, 2006). Pro bibliografické údaje o textu jsou používány hlavičky TEI, které budou tématem následujícího textu.

Zaměření je spíše humanitního směru (lingvistika, historie, právo atd.). Systém neomezuje chronologicky výběr ukládaných zdrojů. Přestože základem je popis elektronických zdrojů, nechybí ani odkazy na tištěné materiály, které se elektronickým zdrojem nějak souvisí (Oxford Text Archive, 1998).

Metadatové záznamy

Preferovaný formát pro popis je TEI Lite. Pro popis záznamu o zdroji se používá několik typů metadat. Jako sdílený metadatový formát pro vyhledávání se používá metadatový formát Dublin Core. Jako interní se používá formát TEI Lite, protože popis pomocí tohoto formátu je bohatší a zahrnuje popis zdroje i jednotlivých významových prvků samotného zdroje. Administrativní metadata jsou obvykle obsažen v hlavičce TEI. Výjimkou jsou informace o uživatelích zdroje, které se kvůli důvěrnosti těchto informací uchovávají v samostatné databázi (Oxford Text Archive, 1998).

Pro bibliografický popis textů jsou používány hlavičky TEI. Hlavička TEI může obsahovat čtyři prvky. Jsou to prvky <fileDesc>, <encodingDesc>, <profileDesc> a <revisionDesc>. Kromě prvku <fileDesc> (popis souboru) jsou všechny prvky volitelné a mohou obsahovat další vnořené prvky. Hlavička TEI může být podle potřeby velmi stručná nebo naopak velmi rozsáhlá.

Prvky v hlavičce se dají rozdělit do tří skupin. Prvky s příponou Desc (Descriptions, Popis) nesou popis nějakých vlasností textu a obsahují volný text, nebo další vnořené prvky. Prvky s příponou Stmt (Statements, Přehled) sdružují prvky, které nesou další strukturované informace. Prvky s příponou Decl (Declarations, Prohlášení) obsahují informace o použitém kódování.

Prvek <fileDesc> obsahuje bibliografický popis elektronického textu. V prvku <encodingDesc> jsou údaje o vztahu mezi popisovaným textem a zdrojem, ze kterého byl popisovaný text odvozen. Prvek <profileDesc> nese informace o jazyku textu, důvodu, proč byl text vytvořen apod. Prvek <revisionDesc> obsahuje informace o změnách textu (Morrison, 1998).

Hlavička TEI je uložena v souboru před samotným textem. Využívá se při vyhledávání. Další možné využití metadat uložených v hlavičce TEI je při tvorbě rejstříků, dynamicky generovaných katalogů a vytváření katalogizačních záznamů (např. po převodu do formátu MARC) (Morrison, 1998).

Vyhledávání

Pro vyhledávání v archivu OTA je možné použít jak listování v rejstřících, tak vyhledávací formuláře. Pro listování jsou dostupné rejstříky autorů, jazyků a názvů. OTA nabízí vyhledávací formuláře pro jednoduché, pokročilé i fulltextové vyhledávání. Dokonce je možné listovat v tištěném katalogu, který je dostupný ve formátu PDF.

Jednoduché hledání nabízí pouze zadání autora nebo slova či fráze z názvu. Pokročilé vyhledávání dovoluje prohledávat autory, názvy, předmětová hesla a jazyk, spojovat je pomocí boolovských operátorů a používat zkracování výrazů zástupnými znaky. Fulltextové vyhledávání dovoluje vybrat prvek formátu TEI Lite a v něm vyhledat slovo nebo slovní spojení.

Shrnutí informací k archivu OTA

Oxfordský archiv textů je ukázkou fungujícího archivu textů popsaných pomocí hlaviček TEI. Funguje od roku 1976, je tedy možné říct, že má dlouholetou tradici a praxi v popisu elektronických textů. Dne 30. září 2006 oslavil výroční konferencí 30. výročí svého založení. Svůj provoz a podrobnou katalogizaci textů si může dovolit díky tomu, že slouží akademické sféře, která ho také sponzoruje.

Standard pro kódování korpusů

Standard pro kódování korpusů (Corpus Encoding Standard, CES, http://www.cs.vassar.edu/CES/) je výsledkem spolupráce projektu EAGLES, projektu Multext a CRNS. Tyto projekty zaměřené na kódování jazyka a jazykové aplikace vznikly v důsledku nekompatibility mnoha stávajících jednojazyčných a vícejazyčných zdrojů pro sjednocení jejich popisu a vytvoření určitého standardu. Na řešení tohoto problému začala v roce 1994 spolupracovat komunita jazykových organizací - Americké konsorcium pro lingvistická data (U.S. Linguistic Data Consortium), Iniciativa evropského korpusu (European Corpus Initiative, ECI), Britský národní korpus (British National Corpus, BNC), Evropská asociace jazykových zdrojů (European Language Resources Association, ELRA) (Ide, 1996).

Pojem korpus může mít několik významů. V současnosti je pro strojové zpracování korpus vnímán jako „rozsáhlý vnitřně strukturovaný a ucelený soubor textů daného jazyka elektronicky uložený a zpracovávaný“ (Pala, 1996), který slouží k dalšímu jazykovému výzkumu. Lze ho také chápat jako velmi rozsáhlý a složitý soubor textů přirozeného jazyka, jehož vytvoření a další využívání umožňují počítače.

Korpusy jsou vytvářeny tak, že jazyková data jsou ve svém přirozeném kontextu, korpus je natolik obsáhlý, že převažují typické jazykové jevy a data jsou dostatečně reprezentativní, aby na nich bylo možné zakládat studie a analýzy.

Korpusy lze dělit na obecné a speciální. Obecné zachycují jazyk v co nejširším rozsahu a úplnosti. Speciální korpusy se zaměřují na určitou oblast, např. korpus děl určitého autora nebo pouze jednoho díla. Další dělení korpusů je možné z hlediska stáří jazyka. Korpusy synchronní zachycují současný jazyk, korpusy diachronní zachycují jazyk určitého historického období, jsou založeny na vzorcích textů a bývají méně obsáhlé. Podle způsobu komunikace se dělí korpusy na korpusy mluveného jazyka a korpusy psaného jazyka. Tvorba korpusů mluveného jazyka je velmi nákladná, protože je nutné mluvený text přepsat do strojem čitelné podoby. Korpusy psaného jazyka používají existující elektronické texty knih, novin, časopisů apod. Obvykle se takové texty musí upravovat (zbavovat obrázků, konvertovat do jednotného formátu, značkovat a anotovat apod.) (Vassar College, 2002).

Základními nástroji, které pracují s korpusy, jsou obvykle konkordanční programy. Ty třídí a počítají frekvenci slov a slovních spojení v korpusu. Konkordanční programy nerozlišují hononyma (víceznačná slova). Proto se ke korpusu váží také gramatické analyzátory, které se zaměřují na morfologické, syntaktické a sémantické znaky textů. Přiřazují každému slovu gramatickou značku (slovní druh, gramatická kategorie apod.). Takto zpracovaný korpus se označuje jako anotovaný (Pala, 1996).

CES slouží k popisu všech typů textů. Texty mohou být jednojazyčné i vícejazyčné (Ide, 1996). Texty zpracované ve standardu CES mohou sloužit i pro kvantitativní analýzy dat (frekvence slov, znaků) i pro kvalitativní analýzy dat (gramatika, zjišťování mutací slov, generování konkordancí). Pro analýzy jsou důležité lingvistické entity - části textu dělené na větší celky (odstavce, kapitoly) a menší části (věty, jména, zkratky, jednotlivá slova).

CES byl navržen pro optimální využití v oblasti jazykového inženýrství a výzkumu jako mezinárodně uznávaný kódovací standard pro kódování aplikací jazykových korpusů v přirozeném jazyce. CES je založen na formátu TEI a vychází i ze SGML a XML. CES nepoužívá celý formát TEI. Používá vybrané části, které jsou vhodné pro kódování jazykových korpusů. Naopak pro jazykové oblasti, které formát TEI neřeší, CES formát TEI rozšířil. Všechny změny, které CES ve formátu TEI udělal, byly předány přímo iniciativě TEI jako podněty pro další rozvoj formátu TEI (Ide, 1996).

CES stanoví minimální kódování pro popis (strukturní a typografické údaje) a obecnou architekturu kódování tak, aby vyhovovala struktuře textových databází. Určuje také rozšířené kódování včetně lingvistických poznámek (Ide, 1996).

Pro popis korpusu pomocí CES v jazyce XML vytváří CES formát XCES (Corpus Encoding Standard for XML). XCES využívá také možností XML v oblasti odkazování pomocí technologií XLink a XPointer (Vassar College, 2002).

Popisné jednotky

CES popisuje lingvistický korpus jednojazyčný nebo vícejazyčný. Korpusem může být určitý text (poezie, drama, mluvený projev atd.). Obecně lze za korpus považovat jakýkoliv soubor lingvistických dat. CES se zaměřuje na lingvistické objekty, za které považuje nejen celé texty, ale i jejich části. Jde např. o kapitoly či odstavce textu, ale i o menší části (např. věty nebo jednotlivá slova). CES zachycuje počty jejich výskytů, vztahy lingvistických jednotek, jejich pořadí a vzdálenost apod. a dovoluje nad těmito údaji provádět různé operace, tvořit statistiky a analýzy (Ide, 1996).

Podobně jako TEI slouží i CES k popisu celého textu. Kóduje pomocí značek jednotlivé části textu, odstavce, slovní spojení, slova. Pro potřeby popisu korpusů byl formát TEI upraven. Některé prvky mají ve formátu CES před jménem prefix „ces“ místo „tei“. Následující text bude věnován hlavičkám CES <cesHeader> (původně <teiHeader>) (Ide, 1996).

Hlavičky CES popisují celý korpus i jednotlivé texty, ze kterých je složen. Celý korpus má hlavičku CES označovanou jako „hlavička korpusu“, jednotlivé části (texty) mají hlavičku CES označovanou jako „hlavička textu“. Oba typy hlaviček jsou sdruženy v prvku <cesHeader> a rozlišeny v rámci tohoto prvku pomocí kvalifikátoru typu (hlavička korpusu nebo hlavička textu). Je možné popisovat více textů dohromady (např. antologie). Popis může být uplatněn na několika úrovních (Vassar College, 2002).

Metadatové záznamy

Součástí popisu CES je hlavička TEI (resp. CES). I v CES nese hlavička nejen bibliografické údaje (název, autor atd.) ale i údaje o kódování. Hlavička CES obsahuje prvky vnořené na několika úrovních. Základní prvek <cesHeader> obsahuje údaje týkající se typu zdroje, který hlavička popisuje (korpus nebo text), jméno autora hlavičky CES, verzi hlavičky, její stav (nová, aktualizovaná), datum vytvoření a aktualizace. Do hlavičky CES mohou být vnořeny čtyři prvky: <fileDesc>, <encodingDesc>, <profileDesc> a <revisionDesc>. Vnořené prvky hlavičky CES obsahují další prvky na nižší úrovni. Úrovní vnoření může být více.

Prvek <fileDesc> obsahuje bibliografický popis korpusu nebo jeho části. V tomto prvku mohou být vnořeny prvky <titleStmt>, <editionStmt>, <extent>, <publicationStmt> a <sourceDesc>. V prvku <titleStmt> je název korpusu nebo názvy textů, ze kterých je korpus složen. Prvek <editionStmt> obsahuje informace o dané verzi korpusu či textu, který je v korpusu obsažen. Prvek <extent> zajišťuje informace o velikosti a rozsahu textu. Prvek <publicationStmt> zahrnuje informace o vydání a distribuci korpusu. V prvku <sourceDesc> je vnořen základní bibliografický popis textu či textů, ze kterých byl korpus vytvořen.

Druhou částí hlavičky CES je prvek <encodingDesc>, který udává vztahy mezi korpusem a textem nebo texty, ze kterých byl korpus odvozen. Tento prvek může obsahovat šest prvků na nižší úrovni. Jsou to prvky <projectDesc>, <samplingDecl>, <editorialDecl>, <tagsDecl>, <refsDecl> a <classDecl>. Údaje o projektu, v jehož rámci korpus vznikl, jsou uvedeny v prvku <projectDesc>. Poznámka ke způsobu vytvoření korpusu a metodě výběru textů pro korpus je uvedena v prvku <samplingDecl>. V prvku <editorialDecl> jsou další prvky, které specifikují způsoby zpracování jednotlivých částí korpusu. Prvek <tagsDecl> se používá jiným způsobem v hlavičce korpusu a jinak v hlavičce textu. V hlavičce korpusu se používá k vyjmenování všech prvků, které jsou v korpusu použity a jejich krátkému popisu. V hlavičce textu se používá k vyjmenování použitých prvků a počtu jejich použití v textu. Každý prvek je vložen ve značce <tagUsage>, pojmenován a je určen počet jeho výskytů. Prvek <refsDecl> obsahuje informace o způsobech odkazování v původních textech, které byly použity při tvorbě korpusu. V prvku <classDecl> jsou údaje o kategoriích textů v korpusu.

Třetí prvek hlavičky CES <profileDesc> nese další informace o textu a jeho vzniku (jazyk, kontext vzniku textu, třídění atd.). Obsahuje prvky <creation>, <langUsage>, <wsdUsage>, <textClass>, <translations> a <annotations>. Prvek <creation> obsahuje informace o původu textu. Informace o jazycích, dialektech a dalších jazykových skupinách, které jsou obsaženy v korpusu nebo textu, jsou v prvku <langUsage>. Každý jazyk má určený identifikátor a znakovou sadu. Prvek <wsdUsage> obsahuje informace o všech znakových sadách, které jsou v korpusu použity. Prvek <textClass> používá k vyjádření předmětu a témat v textech tezaury a třídění. V prvku <translations> jsou informace o existujících překladech textů. Prvek <annotations> sdružuje informace o existujících souborech anotací, které se váží k textům.

Prvek <revisionDesc> je čtvrtým prvkem hlavičky CES. Shrnuje historii editací a úprav textu. Jednotlivé změny jsou uloženy v prvku <change>, který je prvku <revisionDesc> podřízen (Ide, 1996).

Hlavička XCES v XML <xcesHeader> může být vnořena ve zdroji nebo může být uložena v externím souboru a provázána se zdrojem pomocí odkazu. Hlavička XCES vychází z hlavičky CES. Obsahuje několik dalších prvků.

V části <profileDesc> přibyl prvek <particDesc> pro popis účastníků lingvistického projevu. Prvek <person> určuje jednotlivce, kteří se účastní lingvistického projevu. Obsahuje identifikátor osoby, údaje o pohlaví a věku osoby. Je-li osob více, každá má vlastní prvek <person>. Více prvků <person> je sdruženo pomocí prvku <personGrp>. Aby bylo možné mezi jednotlivými osobami definovat vztahy, byl definován prvek <particLinks> a jeho vnořený prvek <relation> (Vassar College, 2002).

Dalším prvkem, který byl přidán do prvku <profileDesc> v hlavičce XCES, je prvek <settingDesc>. Tento prvek nese údaje o okolnostech, které provázely lingvistický projev. Pro jednotlivé okolnosti slouží prvek <setting>, který je dále rozvíjen pomocí prvků <name> (jméno události, místa či jiné okolnosti), <time> (pro určení časového období projevu) a <locate> (popis místa) (Vassar College, 2002).

Upravená hlavička CES zajišťuje popis celého korpusu i jeho částí. Hlavička CES je v podstatě podmnožinou hlavičky TEI. Byly provedeny následující změny:

k existujícím prvkům byly přiřazeny atributy specifikující vlastnosti prvků,
prvky a vlastnosti mají omezené hodnoty pomocí kvalifikátorů,
byl zjednodušen obsahový model prvků, prvky mohou obsahovat vnořené prvky nebo volný text (Ide, 1996),
byly přidány prvky pro vícejazyčné anotace a bibliografické poznámky (Ide, 2002).

Shrnutí informací k formátu CES

Formát CES je tvořen vybranými částmi formátu TEI, které jsou potřebné pro popis lingvistických objektů a má jednodušší strukturu. Standard CES a XCES používají lingvistické projekty a instituce pro sjednocení popisu zdrojů. Jde o celou řadu projektů, z nichž můžeme jmenovat např. projekt EAGLES a Multext, dále PAROLE Corpora, TIPSTER, MATE a další (Ide, 2002).

Použité zdroje:

BURNARD, Lou; DRISCOLL, Matthew; RAHTZ, Sebastian. 2005. Digital Texts, XML, and TEI. In TEI training, Sofia, October 2005 [online]. Text Encoding Initiative, [2005] [cit. 2007-08-31]. Dostupný z WWW: <http://www.tei-c.org/Talks/2005/Sofia/talk-intro.pdf>.
Humanities Text Initiative. 1993. Guidelines for electronic text encoding and interchange (TEI P3) [online]. Michigan : University of Michigan, [1993], modified 23.9.2000 [cit. 2007-05-16]. Dostupný z WWW: <http://www.hti.umich.edu/t/tei/>.
IDE, Nancy. 1996. Corpus Encoding Standard [online]. Version 1.4. Last modified 14 October 1996 [cit. 2007-08-31]. Dostupný z WWW: <http://www.lpl.univ-aix.fr/projects/multext/CES/CES1.html>.
IDE, Nancy. 2002. Re: CES - Request for information [elektronická pošta]. Message to: Veronika Vozkova. 2002-11-04 18:03 [cit. 2002-11-11]. Osobní komunikace.
MIT Libraries. 2004. Metadata reference guide : a guide to metadata by the Metadata Advisory Group of the MIT Libraries : TEI (Text Encoding Initiative) Metadata [online]. MIT Librarires, last updated 02/10/04 [cit. 2007-06-19]. Dostupný z WWW: <http://libraries.mit.edu/guides/subjects/metadata/standards/tei.html>.
MORRISON, Alan; POPHAM, Michael; WIKANDER, Karen. 1998. Creating and documenting electronic texts : a guide to good practice. Guides to good practice [online]. Oxford : Arts and Humanities Data Service, 1988 [cit. 2007-05-18]. Dostupný z WWW: <http://ota.ahds.ac.uk/documents/creating/>. ISSN 1463-5194.
Oxford Text Archive. 1998. Collection policy [online]. Version 1.1. Oxford : Arts and Humanities Data Service, last updated on March 16, 1998 [cit. 2007-08-31]. Dostupný z WWW: <http://ota.ahds.ac.uk/publications/ID_AHDS-Publications-Collections-Policy.html>.
Oxford Text Archive. 2006. The Oxford Text Archive [online]. Oxford : Arts and Humanities Data Service, last updated 11 August 2006 [cit. 2007-09-05]. Dostupný z WWW: <http://ota.ahds.ac.uk/index.html>.
PALA, Karel. 1996. Informační technologie a korpusová lingvistika (1). Zpravodaj ÚTV MU [online]. 1996, roč. 6, č. 3, s. 8-11 [cit. 2007-06-13]. Dostupný také z WWW: <http://www.ics.muni.cz/bulletin/issues/vol06num03/pala/pala.html>. ISSN 1212-0901.
ROMARY, Laurent. 2004. An overview of TEI tagging or, Anyone for pizza? In Wuerzburg TEI Workshop, 8-9 October 2004 [online]. 2004 [cit. 2007-06-19]. Dostupný z WWW: <http://www.tei-c.org/Talks/2004/Wuerzburg/tei-contents.ppt>.
Text Encoding Initiative Consortium. 2001. English poetry full-text database [online]. TEI Consortium, [2001] [cit. 2007-06-19]. Dostupný z WWW: <http://www.tei-c.org/Applications/ch01.xml>.
Text Encoding Initiative Consortium. 2007a. TEI P5 [online]. Edited by C. M. Sperberg-McQueen and Lou Burnard. TEI Consortium, 2007 [cit. 2007-06-19]. Dostupný z WWW: <http://www.tei-c.org/release/doc/tei-p5-doc/html/>.
Text Encoding Initiative Consortium. 2007b. What is the TEI Consortium [online]. TEI Consortium, [2007] [cit. 2007-06-19]. Dostupný z WWW: <http://www.tei-c.org/Consortium/>.
UHLÍŘ, Zdeněk. 1999. Projekt MASTER a standardizace v oblasti zpracování rukopisů. Národní knihovna. 1999, roč. 10, č. 3, s. 109-113. ISSN 0862-7487.
Vassar College. 2002. XCES Corpus Encoding Standard for XML : Schemas [online]. Beta 0.2. Poughkeepsie : Vassar College, last modified 7 May 2002 [cit. 2007-06-19]. Dostupný z WWW: <http://www.cs.vassar.edu/XCES/schema/>.

Klíčová slova:

elektronické zdroje

metadata

TEI

Hodnocení:

Vybrané aplikace metadatového formátu TEI

Vybrané aplikace metadatového formátu TEI

Úvod

Hlavičky TEI a jejich aplikace

Oxfordský textový archiv

Popisné jednotky

Metadatové záznamy

Vyhledávání

Shrnutí informací k archivu OTA

Standard pro kódování korpusů

Popisné jednotky

Metadatové záznamy

Shrnutí informací k formátu CES

Ikaros.cz

Newsletter Ikaros.cz