Slovník ORBIS a sémantické třídy

English title: 
ORBIS dictionary and semantic classes
Abstract: 

The article is focused on a particular dictionary called ORBIS (non-alphabetical dictionary of the semantic classes) and on related semantic classes. It shows that the distribution of words in semantic classes is uniform, and even fullfills Zipf law (Mandelbrot law). Furthermore, it shows that the semantic classes are stable according a certain numerical criterion. It also shows that subdictionary of scientific terms in the scientific text fullfills the Mandelbrot law. Correspondence of the semantic classes with the fields of sciences and a comparison with the classification of sciences is also a part of the article.

Úvod

Ve své disertaci [FRIŠ, 2006] jsem se zabýval sémantickými třídami, platností Mandelbrotova a Zipfova zákona pro tyto třídy a v souvislosti s tím též částí slovní zásoby českého jazyka. Následující text představuje základní myšlenky obsažené v disertaci a její téma dále rozvíjí.

Slovník ORBIS

V rámci disertace [FRIŠ, 2006] byl ze souboru 10 000 slov sestaven slovník sémantických tříd, který nese na počest Jana Amose Komenského název ORBIS. Jedná se o slovník středního až malého rozsahu (slovní zásoba češtiny přesahuje 100 000 slov, běžné jsou slovníky v rozsahu 20 000 až 50 000 slov). Obsahuje nejdůležitější slova – jejich důležitost přitom byla stanovena na základě jejich frekvence, tj. důležitými slovy jsou ta, která jsou v češtině velmi frekventovaně užívána. Za účelem určení frekvence slov byly využity dva frekvenční slovníky, nejprve slovník z roku 1961 [JELÍNEK; BEČKA; TĚŠITELOVÁ, 1961] a následně slovník z roku 2004 [ČERMÁK, 2004]. Do slovníku ORBIS bylo zmiňovaných 10 000 nejfrekventovanějších slov vybráno na základě slovníku z roku 2004. . Internetovou podobu slovníku je možné nalézt na webových stránkách dostupných na adrese http://martin1946.sweb.cz/.

Slovník ORBIS byl vytvořen podle vzoru anglických slovníků Rogetův tezaurus [Roget’s Thesaurus] a Wordnet [Wordnet]. V angličtině mají neabecední slovníky tohoto typu dlouhou tradici a jsou dodnes často vydávány. Rogetův tezaurus vyšel poprvé v roce 1852. O Wordnetu se pořádají mezinárodní konference (2. mezinárodní konference se dokonce uskutečnila v roce 2004 v Brně, jejím pořadatelem byla Masarykova univerzita).

V češtině doposud slovník tohoto typu zatím chyběl, pokud nepočítáme-li abecední slovníky synonym, např. Slovník synonym a frazeologismů J. V. Bečky [BEČKA, 1982] či Slovník českých synonym [PALA; VŠIANSKÝ, 2000]. Pojetí Rogetova tezauru se pak blíží Slovník věcný a synonymický [HALLER, 1969-1987], ten však přes svůj velký rozsah zůstal nedokončen.

Slovník ORBIS podává informaci o jazyce a o slovech, která jej tvoří. Umožňuje se na slovní zásobu dívat shora, tj. z ptačí perspektivy, a ukazuje, která slova do daného tématu patří či nepatří. Slovník také usnadňuje učení se cizím jazykům, neboť slova jsou v něm řazena podle příbuznosti. Perspektivně by měl umožnit také automatické (počítačové) vytvoření informačního profilu dokumentu a usnadnit jeho následné vyhledání. Tento způsob využití slovníku je však v současné době ještě předmětem výzkumu. V budoucnu však lze očekávat využití slovníku ORBIS také v knihovnické praxi.

Sémantické třídy

Sémantickou třídou je pro účely slovníku ORBIS míněna třída slov, které si jsou blízké svým významem. Např. slova židle, stůl, skříň a pohovka patří do sémantické třídy Nábytek.

Ve slovníku ORBIS je obsaženo celkem 32 hlavních (nejvyšších) sémantických tříd. Každá hlavní sémantická třída se dále člení na tři sémantické skupiny, každá skupina pak na tři sémantické podskupiny. Slovník tak obsahuje celkem 96 sémantických skupin a cca 300 podskupin.

Sémantické třídy vznikly původně ze záhlaví/kategorií zmiňovaného Rogetova tezauru, a to seskupením a sdružením těchto záhlaví/kategorií do větších celků. Rogetových záhlaví je již tradičně 1 000. V tab. 1 je uveden seznam sémantických tříd slovníku ORBIS a počet slov v nich. Je zřejmé, že rozdělení slov do jednotlivých tříd je zhruba rovnoměrné – průměrně je v jedné třídě obsaženo 60 slov. Díky tomu, že byly jednotlivým slovům přiřazeny jejich frekvence, můžeme rovnoměrnost sledovat ještě podrobněji, např. si je rozdělit do čtyř rovnoměrných frekvenčních intervalů (podle pořadí), které označíme jako interval A (1. až 500. místo podle frekvence), B (501. – 1 000. místo), C (1 001 – 1 500. místo) a D (1 501. – 2 000. místo). Třídy celkově obsahují 1 635 plnovýznamových slov. Dalších 365 slov jsou slova gramatická a vlastní jména. Celkový počet zpracovávaných slov je tedy 2 000.

Tab. 1: Počty slov v sémantických třídách a v jednotlivých intervalech frekvence

>
Číslo třídyNázev třídyPočet slov v tříděIntervaly
ABCD
1 bytí, událost 28 8 10 6 4
2 vztah, seskupení 49 16 14 11 8
3 množství, číslo 52 14 17 8 13
4 řád, zákonitost 51 13 12 13 13
5 změna, příčina 70 12 24 22 12
6 čas, období 34 12 12 4 6
7 průběh času 52 18 14 12 8
8 prostor 50 10 12 13 15
9 tvar 37 5 10 13 9
10 pohyb 62 13 9 15 25
11 přenos, změna polohy 43 4 12 12 15
12 hmota, krajina 45 8 12 11 14
13 vlastnosti hmoty, smysly 77 15 20 23 19
14 živočich, biologická činnost 42 11 8 13 10
15 části organismu 43 9 12 13 9
16 práce, činnost 42 17 2 8 15
17 zemědělství, průmysl, doprava 49<-td> 6 17 9 17
18 obchod, majetek, dát 61 15 16 15 15
19 úřad, řízení, výchova 61 3 13 25 20
20 společnost, stát, skupina 62 16 17 17 13
21 boj, politika, armáda 40 3 12 5 20
22 vztahy mezi lidmi, morálka 63 8 17 15 23
23 rodina, sex, přátelství 69 18 18 16 17
24 město, obydlí 47 10 13 12 12
25 oděv, jídlo, nemoc 30 2 11 6 11
26 zpráva, řeč, psaní 53 11 18 13 11
27 hledání, vyučování, pravda 71 1611 25 19
28 myšlení, vědomost 69 11 23 19 16
29 věda, umění, náboženství 47 6 16 16 9
30 charakter, zážitek, zábava 48 9 14 13 12
31 nálada, dojmy, city 49 7 7 13 12
32 lidská situace 39 2 5 11 21
Celkem 1 635 328 438 427 443

V tab. 2 jsou prezentovány aritmetický průměr součinů pořadí a frekvence a standardní odchylka pro jednotlivé sémantické třídy. První sloupec (Číslo třídy) obsahuje číslo sémantické třídy (číslování je totožné s číslováním v tab. 1). Ve druhém sloupci (Aritmetický průměr součinů) je pak uveden aritmetický průměr součinů pořadí a frekvence (do výpočtu však není zahrnuto prvních pět slov v pořadí, u nichž jsou odchylky od Zipfova zákona – viz dále – největší). Ve třetím sloupci (Standardní odchylka) je uvedena standardní odchylku od aritmetického průměru. Poznamenejme, že ve dvou případech, konkrétně u třídy č. 13 a 28, byl výpočet aritmetického průměru a standardní odchylky z technických důvodů proveden pouze pro prvních 50 slov.

Tab. 2: Aritmetický průměr součinů pořadí a frekvence a standardní odchylka pro jednotlivé sémantické třídy

Číslo třídyAritmetický průměr součinůStandardní odchylka
3 5718 1097
4 5050 982
5 6982 1156
6 4761 1125
7 6704 1286
8 4461 886
9 3304 757
10 5043 929
11 3659 777
12 4120 854
13 6559 1293
14 4298 917
15 4465 945
16 4579 977
17 4104 816
18 5929 1055
19 4729 846
20 6399 1130
21 3005 671
22 4989 877
23 6892 1154
24 4485 910
25 2710 689
26 5316 1015
27 6261 1035
28 5765 1137
29 4459 906
30 4568 916
31 4326 871
32 2463 600

Zipfův a Mandelbrotův zákon

Ve výpočetní lingvistice je známý a velmi populární Zipfův zákon. Dokonce se dá říci, že od publikování jeho zveřejnění v roce 1935 se datuje historie komputační (výpočetní) lingvistiky. Zdůvodnění svého zákona se Zipf věnuje ve své slavné a často citované knize Principle of least effort and human behavior [ZIPF, 1949].

Formulace zákona je velmi jednoduchá, zní takto: r = konst./ f , kde r je rank (pořadí v seznamu slov uspořádaných podle klesající frekvence), f je frekvence (četnost) slova ve zpracováváném textu a konst. je vhodná konstanta. Jedná se o empirický zákon, resp. zákon statistické povahy, daná rovnice proto neplatí ve všech případech, s malými odchylkami však platí pro jednotlivé hodnoty, konstanta je tedy „rozmazaná“.

Existuje ještě Mandelbrotův zákon z roku 1955. Je zobecněním Zipfova zákona, jeho tvůrce Benoit Mandelbrot (známý jako tvůrce fraktálů) navíc podal jeho exaktní matematický důkaz [MANDELBROT, 1964] , [VALOUCH, 1970]. Důkaz má podobu řešení optimalizační úlohy množství informace předané textem. Výsledkem řešení integrální rovnice je zákon v tomto znění: r = konst/ (f + A) exp beta

V Mandelbrotově zákoně jsou oproti Zipfově zákonu navíc konstanty A a beta (výrazem exp beta je míněn exponent beta). Mandelbrotův zákon je tak mnohem pružnější a může vystihnout širší paletu textů než původní Zipfův zákon. Zipfův zákon například selhává v některých případech vědeckých textů.

Rozložení odborných termínů ve vědeckém textu

V disertační práci [FRIŠ, 2006] byla také zkoumána problematika rozložení odborných termínů ve vědeckém textu. Z knihy Úvod do teorie grafů [SEDLÁČEK, 1981] byly vybrány všechny matematické termíny obsažené v rejstříku. Výběr slov do sémantických tříd byl tedy objektivní, nepodléhal subjektivitě sestavovatele. Výsledek zpracování textu knihy je prezentován v tab. 3 a 4. Tab. 3 představuje frekvenční slovník celého textu a ukazuje, že celý text splňuje výše zmiňovaný Mandelbrotův zákon.

Tab. 3: Fragment tabulky frekvenčního slovníku textu knihy [SEDLÁČEK, 1981]

Pořadové číslo
(klesající pořadí)
– výběr
Slovo/hesloEmpiricky
zjištěná
frekvence
Frekvence
vypočtená užitím
Mandelbrotova
zákona
Rozdíl mezi
empirickými
a vypočtenými
hodnotami
258 odvodit 9 8 1
238 stačit 10 9 1
218 společný 11 10 1
198 vztah 12 11 1
178 odstranit 14 13 1
158 podaný 16 15 1
138 kubický 19 17 2
118 dát 24 21 3
98 dokázat 29 26 3
78 tak 36 35 1
58 pravidelný 47 49 -2
38 množina 72 79 -7
18 z 124 175 -51
10 hrana 184 303 -119
8 že 254 366 -112
6 uzel 355 457 -102
4 graf 529 601 -72
2 . 1062 854 208

Tab. 4 obsahuje seznam matematických termínů ve zmiňované knize [SEDLÁČEK, 1981] a rovněž ukazuje, že i tento seznam slov splňuje Mandelbrotův zákon (byť i s jinými parametr).

Tab. 4: Fragment tabulky frekvenčního slovníku odborných termínů z textu knihy [SEDLÁČEK, 1981]

Pořadové číslo
(klesající pořadí) – výběr
Slovo/hesloEmpiricky
zjištěná
frekvence
Frekvence
vypočtená užitím
Mandelbrotova zákona
Rozdíl mezi
empirickými
a vypočtenými
hodnotami
20 podgraf 34 25 9
19 uzlový 36 27 9
18 most 40 29 11
17 strom 40 32 8
16 tah 44 35 9
15 délka 47 38 9
14 pravidelný 47 42 5
13 komponenta 50 47 3
12 souvislost 53 52 1
11 konečný 59 58 1
10 množina 72 66 6
9 souvislý 77 75 2
8 sled 80 86 6
7 faktor 81 101 -20
6 kružnice 83 119 -36
5 číslo 86 144 -58
4 stupeň 140 177 -37
3 hrana 184 224 -40
2 uzel 355 294 61
1 graf 529 406 123

Je velice pravděpodobné, že kdybychom obdobně zpracovali odborné knihy z oblasti chemie či biologie, budou i tyto knihy splňovat Mandelbrotův zákon. Lze se domnívat, že se jedná o univerzální vlastnost. odborných textů..

V rámci disertace bylo rovněž prozkoumáno zastoupení sémantických tříd v souvislém beletristickém textu [ŘEZÁČ, 1944]. Z tohoto textu bylo vybráno deset úseků, z nichž každý byl tvořen 3 000 slovy. V tab. 5 je uveden počet slov (z jednotlivých sémantických tříd), který se vyskytuje v tomto textu a zároveň je uveden ve výše zmiňovaném seznamu 2 000 nejfrekventovanějších slov. Jako příklad jsou v tab. 5 uvedeny sémantické třídy 3 a 24.

Tab. 5: Ukázka zastoupení sématnických tříd v beletristickém textu [ŘEZÁČ, 1944]

Třída 3Třída 24
Úseky textuPočet slov
ze seznamu
nejfrekventovanějších
slov
Odchylka od
aritmetického
průměru
Počet slov z
e seznamu
nejfrekventovanějších
slov
Odchylka od
aritmetického
průměru
1 23 - 8,4 16 - 10,3
2 20 - 11,4 29 2,7
3 31 - 0,4 33 6,7
4 32 0,6 21 - 5,3
5 34 2,6 45 18,7
6 38 6,6 32 5,7
7 42 10,6 18 - 8,3
8 39 7,6 23 - 3,3
9 31 - 0,4 19 - 7,3
10 24 - 7,4 27 0,7
Aritmetický průměr: 31, 4 Aritmetický průměr: 26,3

Podobné hodnoty se vyskytují i u zbývajících 31 sémantických tříd zkoumaného beletristického textu. Můžeme tedy v tomto případě rovněž hovořit o jisté rovnoměrnosti zastoupení sémantických tříd v textu.

Sémantické třídy a klasifikace věd

Tab. 6 ukazuje souvislosti sémantických tříd s klasifikací věd. Jedná se o pracovní přehled, přiřazení oborů vědy vychází ze znalostí a zkušeností autora.

Tab. 6: Korespondence sémantických tříd s jednotlivými obory vědy

Název třídyObor vědy
existence filozofie
událost filozofie
skutečnost filozofie
vztahy/vztah logika, filozofie
seskupení filozofie
řád, řada filozofie
zákonitost filozofie
změna, začátek filozofie
příčina filozofie
množství, počet matematika
číslo matematika
prostor geometrie
tvar geometrie
čas fyzika
období fyzika
průběh (času) fyzika
pohyb fyzika
přenos, přinést fyzika
krajina, svět geografie
hmota fyzika
smysl(y), vidět, hlas fyziologie
živočich, spát biologie
(části) těla, ruka biologie
práce praxeologie
činnost praxeologie
zemědělství zemědělství
průmysl inženýrství
doprava, auto, cesta doprava
obchod, mít, firma ekonomie
majetek ekonomie
dát ekonomie
úřad, správní úřad státní správa
řízení management
výchova pedagogika
společnost, vláda, veřejný sociologie, politologie
(sociální) skupina sociologie
boj, válka vojensví
politika politologie
armáda vojensví
morálka filozofie, právo-justice
vztahy (mezi lidmi), soud psychologie, sociologie
rodina, osoba antropologie
láska, sex antropologie, sexuologie
přátelství antropologie
město urbanistika, architektura
obydlí architektura
domácnost ekonomie
oděvy textilní inženýrství
jídlo gastronomie
nemoc, nemocnice medicína
zprávy/zpráva žurnalistika
řeč, jazyk jazyky, lingvistika
psaní jazyky, lingvistika
hledání logika
vyučování, škola pedagogika
pravda logika, filozofie
myšlení, řešení psychologie
vědomost, vědět knihovnictví, informatika
věda věda
umění umění
náboženství teologie
charakter, trenér psychologie
zážitek psychologie
zábava, sport zábava
sport sport
nálada psychologie
dojmy (dojem) psychologie
city (cit) psychologie
(lidská) situace praxeologie
bezpečnost praxeologie
gramatika (slova gramatická) gramatika, lingvistika
jméno (vlastní) lingvistika
divná slova divná slova

Pro zájemce o problematiku klasifikace věd doporučuji dílo Základové konkrétné logiky od T. G. Masaryka, např. ve vydání z roku 2001 (MASARYK, 2001).

Závěr a perspektivy

Článek podává úvodní informaci o sémantických třídách a slovníku sémantických tříd. Ukazuje, že sémantické třídy mají příznivé vlastnosti - jsou rovnoměrné a stabilní. Jejich využití lze tedy ve srovnání s jinými sémantickými klasifikacemi pokládat za výhodné. Rovněž je žádoucí další výzkum v této oblasti. V praxi lze prezentovaných poznatků využít např. v oblasti automatického zpracování textů a k vyhledávání (souvislé texty by např. mohly být převedeny k na čísla sémantických tříd a na jejich základě by mohly být automaticky zjišťovány obsahové vlastnosti zpracovávaných textů). Autor textu také počítá s převedením slovníku sémantických tříd do angličtiny (s využitím anglického frekvenčního slovníku [JOHANSSON; HOFLUND, 1989]).

Použitá a doporučená literatura:

ADAMIC, L.; HUBERMAN, B. 2002. Zipf's law and Internet. Glottometrics. 2002, no. 3, s.143-150. ISSN 1617-8912.

ALTMANN, G. 2002. Zipfian linguistics. Glottometrics. 2002, no. 3, s. 19-26. ISSN 1617-8912.

ANDERSEN, S. 2002. Speaker's information content : length-frequency correlation as partial correlation. Glottometrics. 2002, no. 3, s. 90-109. ISSN 1617-8912.

BEČKA, J. V. 1973. Lexikální složení českých odborných textů technického zaměření. Díl 1. Úvodní studie. Praha : SPN, 1973. 230 s. Acta Universitatis 17 Novembris Pragensis. Vědecký sborník fakulty společenských věd. Řada monografická, sv. 5.

BEČKA, J. V. 1982. Slovník synonym a frazeologismů. 3. upr. a dopl. vyd. Praha : Novinář, 1982. 463 s. Knihovnička novináře, sv. 29.

CARNAP, R. 1950. Logical foundations of inductive probability. Chicago, 1950.

CARNAP, R.; BAR-HILLEL, Y. 1964. Sémantická informace. In Teorie informace a jazykověda. 1. vyd. Praha : ČSAV, 1964, s. 165-175.

CONRAD, B.; MITZENMACHER M. 2004. Power laws for monkeys typing randomly : the case of unequal probabilities. In IEEE Transaction on Information Theory. July 2004, vol. 50, no. 7, s. 1403-1414. Postprint dostupný na World Wide Web: <http://www.eecs.harvard.edu/~michaelm/postscripts/toit2004a.pdf>.

CYHELSKÝ, L. ; KAŇOKOVÁ, J.; NOVÁK, I. 1986. Teorie statistiky. 2. upr. vyd. Praha : SNTL, 1986. 340 s.

ČERMÁK, F. et al. 2004. Frekvenční slovník češtiny. Vyd. 1. Praha : Nakladatelství Lidové noviny, 2004. 595 s. Obsahuje CD-ROM. ISBN 80-7106-676-1.

FENK-OZLON, G. ; FENK A. 2002. Zipf's tool analogy and word order. Glottometrics. 2002, no. 5, s. 22-28. ISSN 1617-8912.

FRIŠ, M. 2006. Mandelbrotův zákon a sémantické třídy. Praha, 2006. 45 s. Disertace. Univerzita Karlova v Praze, Matematicko-fyzikální fakulta. Vedoucí disertace prof. PhDr. Eva Hajičová, DrSc.

GABAIX, X. 1999. Zipf's Law for cities : an explanation. The Quaterly Journal of Economics. August 1999, vol. 114, no. 3, s. 739-767. Dostupné také na World Wide Web: <http://econ-www.mit.edu/faculty/download_pdf.php?id=530>.

GRAŽDANIKOV, E. D. 1987. Metod postrojenija sistemnoj klassifikaciji nauk. Novosibirsk, 1987.

GUMENJUK, A.; KOSTYSHIN A.; SIMONOVA S. 2002. An approach to the analysis of text structure. Glottometrics. 2002, no. 3, s. 61- 89. ISSN 1617-8912.

HALLER J. et al. (ed.). 1969-1977. Český slovník věcný a synonymický. 1. vyd. Praha : SPN, 1969-1977. 3 sv.

HALLER, J. 1969 – 1987. Slovník věcný a synonymický. Praha : SPN, 1969-1987. 4 sv.

HALLIG, R.; WARTBURG, W. 1963. Begriffsystem als Grundlage fur die Lexikographie. Berlin, 1963.

HERDAN, G. 1962. The calculus of linguistic observations. Haag : Mouton, 1962. 271 s.

HERDAN, G. 1964. Quantitative linguistics. London : Butterworths, 1964. xvi, 284 s.

HILBERG, W. 2002. The unexpected fundamental influence of mathematics upon language. Glottometrics. 2002, no. 5, s. 29-50. ISSN 1617-8912.

HŘEBÍČEK, L. 2002. Zipf's Law and text. Glottometrics. 2002, no. 3, s. 27-38. ISSN 1617-8912.

JELÍNEK, J.; BEČKA, J. V.; TĚŠITELOVÁ, M. 1961. Frekvence slov, slovních druhů tvarů v českém jazyce. 1. vyd. Praha : SPN, 1961. 585 s.

JOHANSSON, S.; HOFLUND, K. 1989. Frequency analysis of English. Cambridge, 1989.

KOEHLER, R. 2002. A general remark on certain criticism of Zipf 's Law. Glottometrics. 2002, no. 5, s. 51-61. ISSN 1617-8912.

KOMENSKÝ, J. A. 1941. Orbis pictus. Praha : Fr. Borový, 1941. 254 s.

KOSOVSKIJ, B. I. 1974. Obyščeje jazykoznanije. Minsk, 1974.

KRÁLÍK, J. 1983. Some notes on the frequency-rank relation. In HAJIČOVÁ, E. (ed.). Prague Studies in Mathematical Linguistics. Sv. 8. 1. vyd. Praha : Academia, 1983, s. 67-80.

KROMER, V. 2002. Zipf's law and its modification possibilities. Glottometrics. 2002, no. 5, s. 1-13. ISSN 1617-8912.

LI, W. 2002. Zipf's Law everywhere. Glottometrics. 2002, no. 5, s. 14-21. ISSN 1617-8912. LIMPERT E.; STAHEL, W. A.; ABBT, M. 2001. Log-normal distributions across the sciences. Bioscience. 2001, vol. 51, no. 5, s. 341-352. Dostupné také na World Wide Web: <http://stat.ethz.ch/~stahel/lognormal/bioscience.pdf>.

Longman lexicon of contemporary English. London, 1981.

MANDELBROT, B. 1964. Komunikace a formální struktura textů. In Teorie informace a jazykověda. Praha : ČSAV, 1964, s. 130-150.

MANDELBROT, B. On the theory of word frequencies and on related Markovian models of discourse. In Structure of language and its mathematical aspects : proceedindgs of symposia in applied mathematics. Vol. 12. Providence (RI, USA) : American Mathematical Society, 1961, s. 190-219.

MASARYK T. G. 2001. Základové konkrétné logiky. Praha : Masarykův ústav AV ČR, 2001.

MORKOVKIN, V. V. et al. 1984. Leksičeskaja osnova russkogo jazyka. Moskva, 1984.

MORKOVKIN, V. V. et al. 1985. Leksičeskoje minimum sovremennogo russkogo jazyka. Moskva, 1985.

MOSKOVIČ, V. A. 1969. Statistika i semantika. Moskva, 1969.

NIRENBURG S.; RASKIN V. 2004. Ontological semantics. Cambridge (MA, USA) : c2004. xii, 420 s. ISBN 0262140861.

PALA, K.; VŠIANSKÝ, J. 2000. Slovník českých synonym. 3., dopl. vyd. Praha : Nakladatelství Lidové noviny, 2000. 479 s. ISBN 80-7106-450-5.

POPESCU, I.-I. 2003. On a Zipf ' Law extension to impact factors. Glottometrics. 2003, no. 6, s. 83- 93. ISSN 1617-8912.

PRUEN, C.; ZIPF, R. 2002. Biographical notes on G. K. Zipf. Glottometrics. 2002, no. 3, s. 1-11. ISSN 1617-8912.

QUINE, W.O. 1966. The ways of paradox, and other essays. New York (NY, USA) : Random, x, 258 s. 1966.

RACHMANOV, I.V. 1967. Slovar‘ naiboleje upotribitel‘nych slov nemeckogo jazyka. Moskva, 1967.

ROBBINS, J. 2002. Technology, ease, and entropy : a testimonial to Zipf' Principle of Least Effort. Glottometrics. 2002, no. 5, s. 81-96. ISSN 1617-8912.

Roget‘s Thesaurus of English words and phrases. Harmondsworth (Velká Británie) : Penguin Books, 1968. 712 s.

Roget’s Thesaurus. In Wikipedia [online]. [cit. 2007-07-21]. Dostupné na World Wide Web: <http://en.wikipedia.org/wiki/Roget's_Thesaurus>.

ROUSSEAU, R. 2002. Georg Kingsley Zipf : life, ideas, his law and informetrics. Glottometrics. 2002, no. 3, s. 11-18. ISSN 1617-8912.

ŘEZÁČ, V. 1944. Rozhraní. 1. vyd. V Praze : Fr. Borový, 1944. 528 s. Sbírka hodnotné prózy Žatva, sv. 57.

SADOWSKI, W. 1975. Matematická štatistika. 1. vyd. Bratislava : Alfa, 1975. 103 s.

SEDLÁČEK, J. 1981. Úvod do teorie grafů. Praha : Academia 1981. 271 s. Cesta k vědění, č. 29.

SILAGADZE, Z. K. 1999. Citations and the Zipf-Mandelbrot‘s law [online]. Submitted on 21 Jan 1999 (v1), last revised 26 Jan 1999 (this version, v2). [cit. 2007-07-07]. Dostupné na World Wide Web: <http://arxiv.org/abs/physics/9901035>. arXiv:physics/9901035v2 [physics.soc-ph].

SMETÁČEK, V. 1982. Sémantický analyzátor : úvod do problematiky. 1. vyd. Olomouc : Univerzita Palackého, 1982. 189 s.

SMETÁČEK, V. 1984. Sémantický analyzátor : experimentální ověřování. 1. vyd. Olomouc : Univerzita Palackého, 1984. 296 s.

SMETÁČEK, V. 1988. Základní informace o bázi BALEX. Československá informatika. 1988, roč. 30, č. 11, s. 330-333.

ŠTEINFELDT, E. 1963. Častotnyj slovar´ russkogo jazyka. Talin, 1963.

TĚŠITELOVÁ, M. 1974. Otázky lexikální statistiky. Praha : Academia 1974. 289 s. Studie a práce lingvistické ČSAV, sv. 9.

TĚŠITELOVÁ, M. 1980. Využití statistických metod v gramatice. Praha : Academia 1980. 219 s. Studie a práce lingvistické ČSAV, sv. 15.

TĚŠITELOVÁ, M. 1992. Quantitative linguistics. 1. vyd. Praha : Academia,1992. 253 s. ISBN 80-200-0131-X.

TĚŠITELOVÁ, M. et al. 1983. Frekvenční slovník češtiny věcného stylu. Praha : Ústav pro jazyk český ČSAV, 1983. 329 s.

THORNDIKE, E. L.; LORGE, I. 1972. The teacher’s word book of 30,000 words. New York, 1972.

UHLÍŘOVÁ, L. 2002. Zipf's notion of "economy" on text level. Glottometrics. 2002, no. 3, s. 39-60. ISSN 1617-8912.

VALOUCH, V. 1970. Vztahy mezi pořadím a četností kódových znaků (slov). Praha, 1970. 42 s. Univerzita Karlova v Praze, Matematicko-fyzikální fakulta. Vedoucí disertace Marie Koenigová.

Wordnet [online]. Princeton (NJ, USA) : Princeton University, Cognitive Science Laboratory [cit. 2007-07-07]. Dostupné na World Wide Web: <http://wordnet.princeton.edu/>.

ZANETTE D. H.; MONTEMURRO M. A. 2005. Dynamics of text generation with realistic Zipf's distribution. Journal of Quantitative Linguistics. 2005, vol. 12, no.1, s. 29-40.

ZIPF, G. K. 1935. The psycho-biology of language. Boston (MA, USA) : Houghton Mifflin Company, 1935. ix, 336 s.

ZIPF, G. K. 1949. Human behaviour and the principle of least effort. Cambridge (MA, USA) : Addison-Wesley, 1949.

ZIPF, G. K. 1965. The psycho-biology of language. Cambridge (MA, USA) : MIT Press, 1965.
Friš, Martin. Slovník ORBIS a sémantické třídy. Ikaros [online]. 2007, roč. 11, č. 9 [cit. 20.04.2014]. Dostupný na World Wide Web: <http://www.ikaros.cz/node/4301>. urn:nbn:cz:ik‐004301. ISSN 1212-5075.
Průměr: 1 (1 vote)

automaticky generované reklamy