
This article presents Corpus del Español, Russian National Corpus and Slovak National Corpus.
Snad každý stát se snaží vytvořit vlastní jazykový korpus založený na nejrůznějších textech. Náš seriál se je pokusil přiblížit. Věnovali jsme se nejen zdařilým projektům. Dnešní díl, který je zároveň dílem závěrečným, stručně představí španělský, ruský a slovenský korpus.
Corpus del Español je vystavěn na vybraných španělských textech z 12. až 19. století (celkově obsahuje 100 milionů slov). Jeho tvůrcem je Mark Davies z Brigham Young University. Vstupem je přehledné webové rozhraní, které je zaměřeno hlavně na vyhledávání. Vyhledávat lze slova, fráze, lemmata atp. včetně jejich kombinace. Samozřejmostí je možnost omezení vyhledávání na texty z určitého století. Zobrazení výsledků hledání je možné též upravit (např. řazení podle frekvence, relevance). Korpus neslouží jen k hledání určitých slov, ale umožňuje je i porovnávat mluvené slovo s jeho užitím v beletrii, novinách aj. nebo texty z vybrané historické periody (i mezi stoletími). Možnosti vyhledávání jsou poměrně široké a je jen na uživatelích, jak je využijí.
Součástí webu je představení korpusu, pětiminutová „tour“ po korpusu s návodem na hledání.
Ruský národní korpus je korpusem moderní ruštiny, který obsahuje přes 150 milionů slov (v plánu je rozšíření na 200 milionů slov). Reprezentuje jazyk v jeho vývoji v různých žánrech (žánrové, stylové, uzemí či sociální varianty jeho užívání).
Snahou je, aby sbírka textů byla vyvážená a obsahovala nejrůznější druhy textů v podílu, který zhruba odpovídá podílu jejich rozložení v reálném životě. Všechny texty jsou anotované, což korpus odlišuje od ostatních textů dostupných na internetu, navíc obsahuje nejen „zajímavé“ a „užitečné“ texty, ale i texty druhořadé, které jsou však významné pro studium jazyka. Anotace jsou metatextové, morfologické, sémantické a anotace přízvuku, v plánu je syntaktická anotace.
Cílem korpusu je usnadnit akademický výzkum jazyka pro slovníky a gramatiky. Využit je pro statické analýzy textů i pro zachycení vývojových změn jazyka.
Obsažené texty jsou z období 18. až 21. století. Díky tomu jsou zahrnuty nejrůznější texty (literární, hovorové, dialekty, poezie, ale i memoáry, eseje, vědecké publikace, veřejné projevy aj.), a to jak mluvené, tak psané.
Korpus obsahuje několik subkorpusů:
Webová prezentace je velice přehledná, základní informace o korpusu jsou zpracovány i v anglickém jazyce. Taktéž přehledné rozhraní pro vyhledávání má pouze verzi v ruštině. Prohledávat lze všechny výše zmíněné korpusy. K dispozici je jak jednoduché, tak pokročilé vyhledávání. Podobně jako většina korpusů neslouží jen k lingvistickým účelům.
Slovenský národní korpus (SNK) je přes webové rozhraní přístupný bez registrace, ale s omezeným využitím a přístupem pouze ke dvěma korpusům. Plný přístup lez získat registrací, vyhledávání je umožněno (podobně jako v Českém národním korpuse) pomocí programu Bonito.
SNK je určen nejen pro lingvisty, ale i pro veřejnost, a to jen pro nekomerční účely. Je složen z jednojazyčného korpusu psaných textů (obsahuje 350 milionů slov, od roku 2007 je přístupný ve verzi prim-3.0), ručně morfologicky anotovaného korpusu (verze r-mak-2.0, více než 500 tisíc výrazů) a několika paralelních korpsů (např. rusko-slovenský paralalní korpus). Samostatně stojí korpus krymskotatarského jazyka.
Stejně jako v dříve zmíněných projektech i SNK zahrnuje nejrůznější jazykové styly a žánry (publicistické, umělecké, odborné).
Přestože je dnešní díl seriálu o korpusech závěrečný, téma není zdaleka vyčerpané. Představeny by mohly být korpusy čínské, německé, francouzské, malajský či hebrejský, slovinský, maďarský a mnohé další, český nevyjímaje (viz Gateway to Corpus Linguistics on the Internet). Všechny projekty mají široké využití a díky tomu, že se dají užít nejen ke zkoumání daného jazyka, ale i k jeho výuce, neomezují se proto pouze na rodilé mluvčí. Přestože jsou jednotlivé projekty na různé úrovni zpracování i prezentace, je jejich přínos nejen pro lingvisty nezpochybnitelný.
Corpus del Español: ![]()
![]()
![]()
![]()
Ruský národní korpus: ![]()
![]()
![]()
![]()
Slovenský národní korpus: ![]()
![]()
![]()
![]()
Poslat nový komentář