
The article is focused on a particular dictionary called ORBIS (non-alphabetical dictionary of the semantic classes) and on related semantic classes. It shows that the distribution of words in semantic classes is uniform, and even fullfills Zipf law (Mandelbrot law). Furthermore, it shows that the semantic classes are stable according a certain numerical criterion. It also shows that subdictionary of scientific terms in the scientific text fullfills the Mandelbrot law. Correspondence of the semantic classes with the fields of sciences and a comparison with the classification of sciences is also a part of the article.
Ve své disertaci [FRIŠ, 2006] jsem se zabýval sémantickými třídami, platností Mandelbrotova a Zipfova zákona pro tyto třídy a v souvislosti s tím též částí slovní zásoby českého jazyka. Následující text představuje základní myšlenky obsažené v disertaci a její téma dále rozvíjí.
V rámci disertace [FRIŠ, 2006] byl ze souboru 10 000 slov sestaven slovník sémantických tříd, který nese na počest Jana Amose Komenského název ORBIS. Jedná se o slovník středního až malého rozsahu (slovní zásoba češtiny přesahuje 100 000 slov, běžné jsou slovníky v rozsahu 20 000 až 50 000 slov). Obsahuje nejdůležitější slova – jejich důležitost přitom byla stanovena na základě jejich frekvence, tj. důležitými slovy jsou ta, která jsou v češtině velmi frekventovaně užívána. Za účelem určení frekvence slov byly využity dva frekvenční slovníky, nejprve slovník z roku 1961 [JELÍNEK; BEČKA; TĚŠITELOVÁ, 1961] a následně slovník z roku 2004 [ČERMÁK, 2004]. Do slovníku ORBIS bylo zmiňovaných 10 000 nejfrekventovanějších slov vybráno na základě slovníku z roku 2004. . Internetovou podobu slovníku je možné nalézt na webových stránkách dostupných na adrese http://martin1946.sweb.cz/.
Slovník ORBIS byl vytvořen podle vzoru anglických slovníků Rogetův tezaurus [Roget’s Thesaurus] a Wordnet [Wordnet]. V angličtině mají neabecední slovníky tohoto typu dlouhou tradici a jsou dodnes často vydávány. Rogetův tezaurus vyšel poprvé v roce 1852. O Wordnetu se pořádají mezinárodní konference (2. mezinárodní konference se dokonce uskutečnila v roce 2004 v Brně, jejím pořadatelem byla Masarykova univerzita).
V češtině doposud slovník tohoto typu zatím chyběl, pokud nepočítáme-li abecední slovníky synonym, např. Slovník synonym a frazeologismů J. V. Bečky [BEČKA, 1982] či Slovník českých synonym [PALA; VŠIANSKÝ, 2000]. Pojetí Rogetova tezauru se pak blíží Slovník věcný a synonymický [HALLER, 1969-1987], ten však přes svůj velký rozsah zůstal nedokončen.
Slovník ORBIS podává informaci o jazyce a o slovech, která jej tvoří. Umožňuje se na slovní zásobu dívat shora, tj. z ptačí perspektivy, a ukazuje, která slova do daného tématu patří či nepatří. Slovník také usnadňuje učení se cizím jazykům, neboť slova jsou v něm řazena podle příbuznosti. Perspektivně by měl umožnit také automatické (počítačové) vytvoření informačního profilu dokumentu a usnadnit jeho následné vyhledání. Tento způsob využití slovníku je však v současné době ještě předmětem výzkumu. V budoucnu však lze očekávat využití slovníku ORBIS také v knihovnické praxi.
Sémantickou třídou je pro účely slovníku ORBIS míněna třída slov, které si jsou blízké svým významem. Např. slova židle, stůl, skříň a pohovka patří do sémantické třídy Nábytek.
Ve slovníku ORBIS je obsaženo celkem 32 hlavních (nejvyšších) sémantických tříd. Každá hlavní sémantická třída se dále člení na tři sémantické skupiny, každá skupina pak na tři sémantické podskupiny. Slovník tak obsahuje celkem 96 sémantických skupin a cca 300 podskupin.
Sémantické třídy vznikly původně ze záhlaví/kategorií zmiňovaného Rogetova tezauru, a to seskupením a sdružením těchto záhlaví/kategorií do větších celků. Rogetových záhlaví je již tradičně 1 000. V tab. 1 je uveden seznam sémantických tříd slovníku ORBIS a počet slov v nich. Je zřejmé, že rozdělení slov do jednotlivých tříd je zhruba rovnoměrné – průměrně je v jedné třídě obsaženo 60 slov. Díky tomu, že byly jednotlivým slovům přiřazeny jejich frekvence, můžeme rovnoměrnost sledovat ještě podrobněji, např. si je rozdělit do čtyř rovnoměrných frekvenčních intervalů (podle pořadí), které označíme jako interval A (1. až 500. místo podle frekvence), B (501. – 1 000. místo), C (1 001 – 1 500. místo) a D (1 501. – 2 000. místo). Třídy celkově obsahují 1 635 plnovýznamových slov. Dalších 365 slov jsou slova gramatická a vlastní jména. Celkový počet zpracovávaných slov je tedy 2 000.
Tab. 1: Počty slov v sémantických třídách a v jednotlivých intervalech frekvence
| Číslo třídy | Název třídy | Počet slov v třídě | Intervaly | |||
|---|---|---|---|---|---|---|
| A | B | C | D | |||
| 1 | bytí, událost | 28 | 8 | 10 | 6 | 4 |
| 2 | vztah, seskupení | 49 | 16 | 14 | 11 | 8 |
| 3 | množství, číslo | 52 | 14 | 17 | 8 | 13 |
| 4 | řád, zákonitost | 51 | 13 | 12 | 13 | 13 |
| 5 | změna, příčina | 70 | 12 | 24 | 22 | 12 |
| 6 | čas, období | 34 | 12 | 12 | 4 | 6 |
| 7 | průběh času | 52 | 18 | 14 | 12 | 8 |
| 8 | prostor | 50 | 10 | 12 | 13 | 15 |
| 9 | tvar | 37 | 5 | 10 | 13 | 9 |
| 10 | pohyb | 62 | 13 | 9 | 15 | 25 |
| 11 | přenos, změna polohy | 43 | 4 | 12 | 12 | 15 |
| 12 | hmota, krajina | 45 | 8 | 12 | 11 | 14 |
| 13 | vlastnosti hmoty, smysly | 77 | 15 | 20 | 23 | 19 |
| 14 | živočich, biologická činnost | 42 | 11 | 8 | 13 | 10 |
| 15 | části organismu | 43 | 9 | 12 | 13 | 9 |
| 16 | práce, činnost | 42 | 17 | 2 | 8 | 15 |
| 17 | zemědělství, průmysl, doprava | 49<-td> | 6 | 17 | 9 | 17 |
| 18 | obchod, majetek, dát | 61 | 15 | 16 | 15 | 15 |
| 19 | úřad, řízení, výchova | 61 | 3 | 13 | 25 | 20 |
| 20 | společnost, stát, skupina | 62 | 16 | 17 | 17 | 13 |
| 21 | boj, politika, armáda | 40 | 3 | 12 | 5 | 20 |
| 22 | vztahy mezi lidmi, morálka | 63 | 8 | 17 | 15 | 23 |
| 23 | rodina, sex, přátelství | 69 | 18 | 18 | 16 | 17 |
| 24 | město, obydlí | 47 | 10 | 13 | 12 | 12 |
| 25 | oděv, jídlo, nemoc | 30 | 2 | 11 | 6 | 11 |
| 26 | zpráva, řeč, psaní | 53 | 11 | 18 | 13 | 11 |
| 27 | hledání, vyučování, pravda | 71 | 16 | >11 | 25 | 19 |
| 28 | myšlení, vědomost | 69 | 11 | 23 | 19 | 16 |
| 29 | věda, umění, náboženství | 47 | 6 | 16 | 16 | 9 |
| 30 | charakter, zážitek, zábava | 48 | 9 | 14 | 13 | 12 |
| 31 | nálada, dojmy, city | 49 | 7 | 7 | 13 | 12 |
| 32 | lidská situace | 39 | 2 | 5 | 11 | 21 |
| Celkem | 1 635 | 328 | 438 | 427 | 443 | |
V tab. 2 jsou prezentovány aritmetický průměr součinů pořadí a frekvence a standardní odchylka pro jednotlivé sémantické třídy. První sloupec (Číslo třídy) obsahuje číslo sémantické třídy (číslování je totožné s číslováním v tab. 1). Ve druhém sloupci (Aritmetický průměr součinů) je pak uveden aritmetický průměr součinů pořadí a frekvence (do výpočtu však není zahrnuto prvních pět slov v pořadí, u nichž jsou odchylky od Zipfova zákona – viz dále – největší). Ve třetím sloupci (Standardní odchylka) je uvedena standardní odchylku od aritmetického průměru. Poznamenejme, že ve dvou případech, konkrétně u třídy č. 13 a 28, byl výpočet aritmetického průměru a standardní odchylky z technických důvodů proveden pouze pro prvních 50 slov.
Tab. 2: Aritmetický průměr součinů pořadí a frekvence a standardní odchylka pro jednotlivé sémantické třídy
| Číslo třídy | Aritmetický průměr součinů | Standardní odchylka |
|---|---|---|
| 3 | 5718 | 1097 |
| 4 | 5050 | 982 |
| 5 | 6982 | 1156 |
| 6 | 4761 | 1125 |
| 7 | 6704 | 1286 |
| 8 | 4461 | 886 |
| 9 | 3304 | 757 |
| 10 | 5043 | 929 |
| 11 | 3659 | 777 |
| 12 | 4120 | 854 |
| 13 | 6559 | 1293 |
| 14 | 4298 | 917 |
| 15 | 4465 | 945 |
| 16 | 4579 | 977 |
| 17 | 4104 | 816 |
| 18 | 5929 | 1055 |
| 19 | 4729 | 846 |
| 20 | 6399 | 1130 |
| 21 | 3005 | 671 |
| 22 | 4989 | 877 |
| 23 | 6892 | 1154 |
| 24 | 4485 | 910 |
| 25 | 2710 | 689 |
| 26 | 5316 | 1015 |
| 27 | 6261 | 1035 |
| 28 | 5765 | 1137 |
| 29 | 4459 | 906 |
| 30 | 4568 | 916 |
| 31 | 4326 | 871 |
| 32 | 2463 | 600 |
Ve výpočetní lingvistice je známý a velmi populární Zipfův zákon. Dokonce se dá říci, že od publikování jeho zveřejnění v roce 1935 se datuje historie komputační (výpočetní) lingvistiky. Zdůvodnění svého zákona se Zipf věnuje ve své slavné a často citované knize Principle of least effort and human behavior [ZIPF, 1949].
Formulace zákona je velmi jednoduchá, zní takto: r = konst./ f , kde r je rank (pořadí v seznamu slov uspořádaných podle klesající frekvence), f je frekvence (četnost) slova ve zpracováváném textu a konst. je vhodná konstanta. Jedná se o empirický zákon, resp. zákon statistické povahy, daná rovnice proto neplatí ve všech případech, s malými odchylkami však platí pro jednotlivé hodnoty, konstanta je tedy „rozmazaná“.
Existuje ještě Mandelbrotův zákon z roku 1955. Je zobecněním Zipfova zákona, jeho tvůrce Benoit Mandelbrot (známý jako tvůrce fraktálů) navíc podal jeho exaktní matematický důkaz [MANDELBROT, 1964] , [VALOUCH, 1970]. Důkaz má podobu řešení optimalizační úlohy množství informace předané textem. Výsledkem řešení integrální rovnice je zákon v tomto znění: r = konst/ (f + A) exp beta
V Mandelbrotově zákoně jsou oproti Zipfově zákonu navíc konstanty A a beta (výrazem exp beta je míněn exponent beta). Mandelbrotův zákon je tak mnohem pružnější a může vystihnout širší paletu textů než původní Zipfův zákon. Zipfův zákon například selhává v některých případech vědeckých textů.
V disertační práci [FRIŠ, 2006] byla také zkoumána problematika rozložení odborných termínů ve vědeckém textu. Z knihy Úvod do teorie grafů [SEDLÁČEK, 1981] byly vybrány všechny matematické termíny obsažené v rejstříku. Výběr slov do sémantických tříd byl tedy objektivní, nepodléhal subjektivitě sestavovatele. Výsledek zpracování textu knihy je prezentován v tab. 3 a 4. Tab. 3 představuje frekvenční slovník celého textu a ukazuje, že celý text splňuje výše zmiňovaný Mandelbrotův zákon.
Tab. 3: Fragment tabulky frekvenčního slovníku textu knihy [SEDLÁČEK, 1981]
| Pořadové číslo (klesající pořadí) – výběr | Slovo/heslo | Empiricky zjištěná frekvence | Frekvence vypočtená užitím Mandelbrotova zákona | Rozdíl mezi empirickými a vypočtenými hodnotami |
|---|---|---|---|---|
| 258 | odvodit | 9 | 8 | 1 |
| 238 | stačit | 10 | 9 | 1 |
| 218 | společný | 11 | 10 | 1 |
| 198 | vztah | 12 | 11 | 1 |
| 178 | odstranit | 14 | 13 | 1 |
| 158 | podaný | 16 | 15 | 1 |
| 138 | kubický | 19 | 17 | 2 |
| 118 | dát | 24 | 21 | 3 |
| 98 | dokázat | 29 | 26 | 3 |
| 78 | tak | 36 | 35 | 1 |
| 58 | pravidelný | 47 | 49 | -2 |
| 38 | množina | 72 | 79 | -7 |
| 18 | z | 124 | 175 | -51 |
| 10 | hrana | 184 | 303 | -119 |
| 8 | že | 254 | 366 | -112 |
| 6 | uzel | 355 | 457 | -102 |
| 4 | graf | 529 | 601 | -72 |
| 2 | . | 1062 | 854 | 208 |
Tab. 4 obsahuje seznam matematických termínů ve zmiňované knize [SEDLÁČEK, 1981] a rovněž ukazuje, že i tento seznam slov splňuje Mandelbrotův zákon (byť i s jinými parametr).
Tab. 4: Fragment tabulky frekvenčního slovníku odborných termínů z textu knihy [SEDLÁČEK, 1981]
| Pořadové číslo (klesající pořadí) – výběr | Slovo/heslo | Empiricky zjištěná frekvence | Frekvence vypočtená užitím Mandelbrotova zákona | Rozdíl mezi empirickými a vypočtenými hodnotami |
|---|---|---|---|---|
| 20 | podgraf | 34 | 25 | 9 |
| 19 | uzlový | 36 | 27 | 9 |
| 18 | most | 40 | 29 | 11 |
| 17 | strom | 40 | 32 | 8 |
| 16 | tah | 44 | 35 | 9 |
| 15 | délka | 47 | 38 | 9 |
| 14 | pravidelný | 47 | 42 | 5 |
| 13 | komponenta | 50 | 47 | 3 |
| 12 | souvislost | 53 | 52 | 1 |
| 11 | konečný | 59 | 58 | 1 |
| 10 | množina | 72 | 66 | 6 |
| 9 | souvislý | 77 | 75 | 2 |
| 8 | sled | 80 | 86 | 6 |
| 7 | faktor | 81 | 101 | -20 |
| 6 | kružnice | 83 | 119 | -36 |
| 5 | číslo | 86 | 144 | -58 |
| 4 | stupeň | 140 | 177 | -37 |
| 3 | hrana | 184 | 224 | -40 |
| 2 | uzel | 355 | 294 | 61 |
| 1 | graf | 529 | 406 | 123 |
Je velice pravděpodobné, že kdybychom obdobně zpracovali odborné knihy z oblasti chemie či biologie, budou i tyto knihy splňovat Mandelbrotův zákon. Lze se domnívat, že se jedná o univerzální vlastnost. odborných textů..
V rámci disertace bylo rovněž prozkoumáno zastoupení sémantických tříd v souvislém beletristickém textu [ŘEZÁČ, 1944]. Z tohoto textu bylo vybráno deset úseků, z nichž každý byl tvořen 3 000 slovy. V tab. 5 je uveden počet slov (z jednotlivých sémantických tříd), který se vyskytuje v tomto textu a zároveň je uveden ve výše zmiňovaném seznamu 2 000 nejfrekventovanějších slov. Jako příklad jsou v tab. 5 uvedeny sémantické třídy 3 a 24.
Tab. 5: Ukázka zastoupení sématnických tříd v beletristickém textu [ŘEZÁČ, 1944]
| Třída 3 | Třída 24 | |||
|---|---|---|---|---|
| Úseky textu | Počet slov ze seznamu nejfrekventovanějších slov | Odchylka od aritmetického průměru | Počet slov z e seznamu nejfrekventovanějších slov | Odchylka od aritmetického průměru |
| 1 | 23 | - 8,4 | 16 | - 10,3 |
| 2 | 20 | - 11,4 | 29 | 2,7 |
| 3 | 31 | - 0,4 | 33 | 6,7 |
| 4 | 32 | 0,6 | 21 | - 5,3 |
| 5 | 34 | 2,6 | 45 | 18,7 |
| 6 | 38 | 6,6 | 32 | 5,7 |
| 7 | 42 | 10,6 | 18 | - 8,3 |
| 8 | 39 | 7,6 | 23 | - 3,3 |
| 9 | 31 | - 0,4 | 19 | - 7,3 |
| 10 | 24 | - 7,4 | 27 | 0,7 |
| Aritmetický průměr: 31, 4 | Aritmetický průměr: 26,3 | |||
Podobné hodnoty se vyskytují i u zbývajících 31 sémantických tříd zkoumaného beletristického textu. Můžeme tedy v tomto případě rovněž hovořit o jisté rovnoměrnosti zastoupení sémantických tříd v textu.
Tab. 6 ukazuje souvislosti sémantických tříd s klasifikací věd. Jedná se o pracovní přehled, přiřazení oborů vědy vychází ze znalostí a zkušeností autora.
Tab. 6: Korespondence sémantických tříd s jednotlivými obory vědy
| Název třídy | Obor vědy |
|---|---|
| existence | filozofie |
| událost | filozofie |
| skutečnost | filozofie |
| vztahy/vztah | logika, filozofie |
| seskupení | filozofie |
| řád, řada | filozofie |
| zákonitost | filozofie |
| změna, začátek | filozofie |
| příčina | filozofie |
| množství, počet | matematika |
| číslo | matematika |
| prostor | geometrie |
| tvar | geometrie |
| čas | fyzika |
| období | fyzika |
| průběh (času) | fyzika |
| pohyb | fyzika |
| přenos, přinést | fyzika |
| krajina, svět | geografie |
| hmota | fyzika |
| smysl(y), vidět, hlas | fyziologie |
| živočich, spát | biologie |
| (části) těla, ruka | biologie |
| práce | praxeologie |
| činnost | praxeologie |
| zemědělství | zemědělství |
| průmysl | inženýrství |
| doprava, auto, cesta | doprava |
| obchod, mít, firma | ekonomie |
| majetek | ekonomie |
| dát | ekonomie |
| úřad, správní úřad | státní správa |
| řízení | management |
| výchova | pedagogika |
| společnost, vláda, veřejný | sociologie, politologie |
| (sociální) skupina | sociologie |
| boj, válka | vojensví |
| politika | politologie |
| armáda | vojensví |
| morálka | filozofie, právo-justice |
| vztahy (mezi lidmi), soud | psychologie, sociologie |
| rodina, osoba | antropologie |
| láska, sex | antropologie, sexuologie |
| přátelství | antropologie |
| město | urbanistika, architektura |
| obydlí | architektura |
| domácnost | ekonomie |
| oděvy | textilní inženýrství |
| jídlo | gastronomie |
| nemoc, nemocnice | medicína |
| zprávy/zpráva | žurnalistika |
| řeč, jazyk | jazyky, lingvistika |
| psaní | jazyky, lingvistika |
| hledání | logika |
| vyučování, škola | pedagogika |
| pravda | logika, filozofie |
| myšlení, řešení | psychologie |
| vědomost, vědět | knihovnictví, informatika |
| věda | věda |
| umění | umění |
| náboženství | teologie |
| charakter, trenér | psychologie |
| zážitek | psychologie |
| zábava, sport | zábava |
| sport | sport |
| nálada | psychologie |
| dojmy (dojem) | psychologie |
| city (cit) | psychologie |
| (lidská) situace | praxeologie |
| bezpečnost | praxeologie |
| gramatika (slova gramatická) | gramatika, lingvistika |
| jméno (vlastní) | lingvistika |
| divná slova | divná slova |
Pro zájemce o problematiku klasifikace věd doporučuji dílo Základové konkrétné logiky od T. G. Masaryka, např. ve vydání z roku 2001 (MASARYK, 2001).
Článek podává úvodní informaci o sémantických třídách a slovníku sémantických tříd. Ukazuje, že sémantické třídy mají příznivé vlastnosti - jsou rovnoměrné a stabilní. Jejich využití lze tedy ve srovnání s jinými sémantickými klasifikacemi pokládat za výhodné. Rovněž je žádoucí další výzkum v této oblasti. V praxi lze prezentovaných poznatků využít např. v oblasti automatického zpracování textů a k vyhledávání (souvislé texty by např. mohly být převedeny k na čísla sémantických tříd a na jejich základě by mohly být automaticky zjišťovány obsahové vlastnosti zpracovávaných textů). Autor textu také počítá s převedením slovníku sémantických tříd do angličtiny (s využitím anglického frekvenčního slovníku [JOHANSSON; HOFLUND, 1989]).
Poslední komentáře
před 3 dny 1 hod
před 5 dnů 1 hod
před 6 dnů 2 hod
před 3 týdny 5 dnů
před 3 týdny 5 dnů
před 5 týdnů 22 hod
před 5 týdnů 5 dnů
před 6 týdnů 1 den
před 8 týdnů 16 min
před 8 týdnů 5 hod