Jízdní řády kvantového chaosu

	Sign In Sign-Up

Jízdní řády kvantované informace

Milan Kunz (kunzmilan@seznam.cz)

Trochu osobní úvod

Musel jsem trochu déle čekat v patentové kanceláři sídlící na Mendlově náměstí. Tak se mi dostala do rukou MF Dnes z 1. 12. 2001, kde v příloze Věda je článek J. Tučka “Kvantový chaos řídí i autobusy”, který popularizuje výsledky výzkumu docenta Šeby a jeho doktoranda Krbálka, kteří studovali intervaly mezi příjezdy jednotlivých autobusů na zastávky v Mexiku. Oba fyzikové také zjistili, “že podle stejných pravidel se shlukují i písmena v textu nebo noty v melodii. Znamená to, že například mezi dvěma písmenky “b” v psaném textu je nejčastěji stejný odstup a pak se plynule zmenšuje počet těchže písmenek, jejichž odstup je menší či větší.”

Dále: “Zdá se, že tento způsob rozdělení prvků, dosud známý pouze v kvantové fyzice, je univerzální i v jiných náhodných systémech. Právě to je úplně nové světlo, které jsem do problematiky vnesli.”

Četl jsem článek se smíšenými pocity. Musel jsem uznat, že jsem také začínal podobně, také jsem si kdysi myslel, že jsem objevil Ameriku, ačkoliv existovaly celé vědní obory, které se podobnou problematikou zabývaly dávno přede mnou. Na druhé straně získávám spojence proti akademiku Zahradníkovi, který mne označil za ignoranta, který se plete do věcí, kterým nerozumí, protože jsem se odvážil vyjádřit pochybnosti o interpretaci kvantové mechaniky. Zanechejme bolestínských úvah a vraťme se k problematice kvantového chaosu, ve které budou mít své místo jak patenty, tak Mendel, přesněji statistické vlastnosti DNA. Budeme se však zabývat statistickými vlastnostmi lidské řeči, ovšem jen její psané formy, protože mluvená forma asi má trochu jiné vlastnosti. Obecně se jedná o rozdělení informace. Nejprve trochu matematiky.

Binomiální a negativně binomiální rozdělení

Při hodech mincí jsou prakticky možné dva výsledky, podle císařské tradice hlava nebo orel, při zápisu výhodně 0 a 1. Zanedbává se možnost, že mince zůstane stát na hraně, jako kdyby mince měla nulovou tloušťku, takže ji trochu idealizujeme. Představme si několik výsledků experimentu se stejným počtem 12 hodů:

000000111111

010101010101

001000111011.

Která řada je pravděpodobnější? Zásadně mají všechny tři stejnou pravděpodobnost, ale u poslední řady můžeme předpokládat, že dostaneme častěji podobný výsledek, kdy budeme muset ověřovat každou polohu, abychom řady nezaměnili. Prvé dvě řady jsou téměř jedinečné, existují jen jejich zrcadlové obrazy, u třetí řady existuje více podobných řad. Prvé dvě řady jsou uspořádané, prvky se pravidelně opakují, třetí řada je zamíchána způsobem, který můžeme označit za opravdu náhodný. Probereme si všechny možné výsledy série 4 hodů

	0000	0001	0011	0111	1111
		0010	0101	1011
		0100	1001	1101
		1000	1010	1110
			0110
			1100
Součet	1	4	6	4	1

Takové tabulky se dají sestavovat od jednoho do nekonečného počtu hodů. Počty výsledků tvoří Pascalův trojúhelník. Tady je sestaven pro výsledek 1, stejná tabulka je i pro výsledek 0, trojúhelník je symetrický. Všimněte si, že součty jsou mocniny čísla dvě. Tabulka je doplněna i o nultou mocninu, což je jedna a případ žádného hodu, kdy nemůže jednotka zásadně padnout, protože se hod vůbec neuskuteční.

Počet jednotek(m) hodů (n)	0	1	2	3	4	5	6	Součet výsledků
0	1							1
1	1	1						2
2	1	2	1					4
3	1	3	3	1				8
4	1	4	6	4	1			16
5	1	5	10	10	5	1		32
6	1	6	15	20	15	6	1	64

Pascalův trojúhelník je základem binomiálního rozdělení, které přiřazuje určitou hodnotu každému poměru dvou prvků. Hodnoty v tabulce lze získat buď postupným sčítáním dvou hodnot v předcházejícím řádku, nebo přímo pomocí binomického koeficientu, což je podíl faktoriálů n!/m!(n-m)!. Největší počet možností je pro řady s poměrem obou výsledků 1:1. Mluvíme tu o pravděpodobnosti a náhodě, čím by byl poměr posunut vzdálenější, tím by byl méně pravděpodobný.

S počtem hodů bychom mohli jít do nekonečna. V tom případě se stávají absolutní počty možných výsledků nesmyslně velké a pohodlněji počítáme s relativními čísly, poměry počtu příznivých případů ke všem možným. Místo binomického rozdělení dostaneme normální rozdělení, které odvodil Gauss, když se zabýval chybami astronomických měření.

My jsme však začali autobusy, tak se držme tohoto příkladu. Prázdná zastávka, to je zřejmě 0, autobus na zastávce 1. Pokud budeme zaznamenávat v pravidelných intervalech, výsledkem bude binární sekvence. Nejprve si zanalyzujeme model. V příkladu

000000111111

010101010101

001000111011

čekáme v prvém případě na prvý autobus 7 intervalů, pak vždy jen 1 interval, v druhém případě je přestávka vždy 2 intervaly, autobusy jezdí zcela pravidelně, a v třetím případě čekáme postupně 3, 4, 1, 1, 2, 1 intervaly.

Pokud si dáme práci a spočítáme vzdálenosti mezi stejnými výsledky všech binárních řadách, dostaneme tabulku podobnou Pascalu trojúhelníku. Tato tabulka je základem negativně binomiálního rozdělení, což je jakási inversní forma binomiálního rozdělení.

Negativně binomiální rozdělení bylo ještě nedávno matematickou kuriositou, protože výpočty jeho parametrů bez použití počítače jsou velmi obtížné. Obvyklé charakteristiky, jako jsou průměr a rozptyl mají jen malou vypovídací hodnotu. Teď sice počítač dá výsledky, avšak jejich interpretace je stále dosti těžká. Nejsnadněji se dají posoudit rozdíly mezi teoretickým rozdělením a experimentálními výsledky.

Teď si představme, že místo mince budeme házet kostkou. Ta může mít tvar krychle, se stěnami označenými 0, 1, 2, 3, 4, 5 (místo obvyklých 1, 2, 3, 4, 5 a 6 teček) nebo pravidelného čtyřstěnu se stěnami označenými 0, 1, 2, 3. Obecně si můžeme představit jako kostku pravidelný n-stěn, případně hranol, který se může jen kutálet. Výsledky postupných hodů analogicky s binomiálním rozdělením popisuje n-nomiální rozdělení, obecně polynomiální rozdělení, kde počet prvků určuje polynomický koeficient, což je analogie binomického koeficientu. Podrobnosti nás zde nemusí zajímat. Jen si musíme uvědomit, že analogicky s negativně binomiálním rozdělením by měla existovat negativně polynomiální rozdělení. Tato rozdělení však nejsou, pokud vím, prakticky rozpracována, aby se podle nich dalo jednoduše počítat.

Možná to ani není potřeba. Podle mých zkušeností negativně polynomiální rozdělení lze modelovat sérií negativně binomiálních rozdělení.

Představte si, že v tomto textu studujeme vzdálenosti mezi písmeny a. Všechna ostatní písmena (případně i interpunkci) nahradíme jedním neutrálním znakem. Dostaneme tak binomiální rozdělení, které bychom mohli modelovat jakousi falešnou mincí, u které jedna strana bude pravidelně padat mnohem častěji než druhá. Takovou minci bychom si mohli představit jako kuličku s vypilovanou ploškou, kde poměry ploch by odpovídaly poměru četnosti daného znaku ke znakům ostatním.

Po prostudování vlastností jednoho rozdělení postoupíme k dalšímu písmenu a dostaneme tak soubor pro všechna písmena abecedy. Tady existuje ještě možnost rozlišovat malá a velká písmena. Než k přistoupíme k praktickým příkladům, musíme ještě absolvovat historický úvod.

Krátká historie statistiky informace

Musím se přiznat, že jsem zaskočil sám sebe otázkou, kde začít s historií problému statistických studií informace. Prehistorii problému jsem nestudoval, bývá spojována s počítáním slov v Bibli. Osobně bych přiznal prvenství Gutenbergovi, který asi brzo zjistil při sazbě Bible, že některých liter potřebuje mít v tiskařské kase mnohem více než jiných, protože se často v textu opakují. Ani nevím, kdo určil obecně přijímané frekvence písmen v jednotlivých jazycích.

Prvý kořen, který se však téměř úplně odlomil, byl ruský matematik Markov (toho by fyzikové měli znát. Z jeho zájmu, podle jakých pravidel se střídají hlásky se samohláskami v Puškinově Evženu Oněginovi vyrostl samostatný obor matematiky.

Druhý kořen stromu poznání tvoří praktický Američan Zipf. Ten se začal začátkem minulého století zajímat o frekvenci jednotlivých slov v angličtině, aby naučil přistěhovalce nejprve nejčastěji se vyskytující slova, s rozumným předpokladem, že slovům, která uslyší za život jen jednou, rozumět nemusí a je tedy zbytečné ztrácet čas s jejich memorováním. Zipf zjistil, že když vynese logaritmy frekvence nejčastěji se vyskytujících slov proti logaritmu jejich pořadí, tvoří body na počátku grafu zcela přijatelnou přímku. Konec představovaný řídce se vyskytujícími slovy potom začne od přímky odpadat. Zipf použil pořádkovou statistiku.

Třetím zdrojem je další Američan Lotka, který si dal práci se statistikou produktivity autorů v desetiletém indexu Chemical Abstracts, kolik kdo má publikací. Našel rozdělení podobné Zipfovu, jenomže pozorovanému z opačného konce. Logaritmus počtu autorů s n publikacemi koreloval proti logaritmu počtu jejich publikací. Na 10000 autorů s 1 publikací připadne přibližně 10 autorů s 10 publikacemi a jen 1 autor se 100 publikacemi.

Při obvyklé praxi univerzitní profesor má několik doktorantů, kterým zadá téma, na kterém pracují a výsledek práce potom společně publikují. Absolventi pak odcházejí učit na střední školy, do úřadů a průmyslu a končí s vědeckou prací, případně musí jako asistenti pracovat sami a mají jen málo vlastních publikací.

Kosý tvar rozdělení produktivity autorů byl charakterizován pesimistickým modelem podle apoštola Matouše: “Tomu kdo má, bude přidáno a tomu kdo nemá, bude vzato i to, co má”. Zakladatel scientometrie (nepleťte si to se scientologií) Solla de Price se pokusil popsat tento tvar rozdělení optimistickým modelem podle zásady: “Úspěch budí úspěch”. Nejtěžší podle něj je vždy prvý krok, další kroky a tedy i publikace jsou stále snazší. V určitém smyslu měl pravdu, protože prestižním autorům projde leccos, co by neprošlo nýmandům, avšak oba modely jsou rovnocenné.

Měl bych zmínit i nositele Nobelovy ceny za fyziku Shockleyho, který se zajímal o počty publikací svých podřízených a chtěl je podle toho i odměňovat. Ten použil jednoduše logaritmicko normální rozdělení. Když jsme u toho odměňování, rozdělení bohatství mezi lidmi, které studoval už v předminulém století Pareto, je stejného typu.

A pak tu byl anglický statistik Yule. Ten si krátil nejtěžší chvíle německých náletů na Anglii počítáním slov ve svých oblíbených knihách. A také v projevech státníků, včetně Hitlera, zda se dají zjistit statistické rozdíly v používání slov. Ke svému překvapení našel rozdělení podobné Lotkovu. Nejvíce je slov, které se opakují pouze jednou. Slova vyskytující se v textu pouze jednou, jsou slova vzácná a neotřelá. Jejich velký počet je důkazem stylistické obratnosti a pečlivosti autora.

Tady by historický úvod mohl končit, protože pak se problému začíná věnovat příliš mnoho vědců. Ještě bych ještě zmínil lingvistku Těšitelovou, která pečlivě počítala slova v knihách českých autorů, a zběhlého fyzika Vlachého, který s neobyčejnou pílí opakoval lotkovské studie na všech souborech,které mu přišly pod ruku.

Já jsem se k problematice dostal v rámci normalizace. Z laboratoře jsem byl vykopnut a skončil jsem v patentovém oddělení. Měl jsem za úkol rešerše. V rámci předstírání činnosti jsem si dal za cíl zjistit, jak patentuje konkurence. Vedoucí firmy měly ročně desítky patentů, což svědčilo o tom, že soustřeďují na úkoly mnohem více sil než bylo zvykem u nás. Tomu odpovídaly i výsledky a hlavně praktické realizace výzkumu.

Rešerši jsem chtěl publikovat a tak jsem ji vylepšil samorostlou teorií. Tou jsem si zamotal hlavu sám sobě. Spojil jsem rozdělení patentů s entropií a později se symetrií. Zkoušel jsem korelovat své pomocí různých rozdělení, i dvojitou logaritmickou transformaci, ale nejlépe se mi líbilo lognormální rozdělení, případně vylepšené substitucí, která modifikovala počátek rozdělení.

Kolega Vlachý si všimnul mé české publikace a doporučil mi publikovat v časopise Scientometrics. Tam tehdy uplatnil sérii článků Rus Haitun, který s apoštolským zanícením zdůrazňoval specifičnost extrémně kosých rozdělení jako zvláštnost informace. Tak jsem se pustil do polemiky, protože třeba rozdělení chemických prvků ve Vesmíru, nebo vesmírných těles je velmi kosé.

Existují celé teorie týkající se Zipfova a Lotkova rozdělení, jejich matematických vlastností. Obě rozdělení se zpracovávaly zcela odděleně, ačkoliv se jedná o popis dvou konců jednoho jevu. Tak jsem ukázal, že lze Lotkovy výsledky korelovat hlava proti konci (ocasu), jako když se had zakousne do svého ocasu. Dostanou se většinou přijatelné přímky.

Rozdělení informace je deformované. Jeho tvar je useknutý téměř u poloviny předpokládaného zvonového tvaru. Chybějící část lze vysvětlovat kvantováním, bylo by třeba možné ji přičítat nezjištěnému počtu neúplných publikací, které se vůbec v tisku neobjevily. Deformovaný tvar působí někdy potíže při statistických výpočtech, některé běžně používané algoritmy vedou k chybným závěrům.

Já jsem měl v patentové rešerši vedle počtů přihlášek také údaje o datech jejich podání. Když se data významných přihlašovatelů s mnoha desítkami přihlášek vynesla na časovou osu, podobala se čárovým spektrům chemických sloučenin. Data nebyla rozdělena rovnoměrně, ale vyskytovala se ve shlucích, v jakých jezdí autobusy. Tak jsem dostal nápad studovat intervaly mezi jednotlivými přihláškami.

Už tehdy jsem si uvědomoval možnosti podobných studií pro jiné řady, jako jsou texty, iracionální čísla nebo genetická informace. To však muselo počkat, až jsem byl v penzi a měl doma počítač.

Kolega RNDr Z. Rádl CSc mi vypracoval programy, které umožňují analýzovat vzdálenosti mezi znaky v ASCII souborech různých typů. Nyní stačí vzít text vhodné délky, zadat symbol, a dostane se výpis vzdáleností mezi daným symbolem, který lze studovat pomocí vhodného programu, třeba lze získat jeho charakteristiku pomocí Fourierovy analýzy.

Některé praktické výsledky

Lidská řeč je fascinující fenomén. Vyjma několika řídkých výjimek většinu z nás stojí mnoho úsilí vyjadřovat se jasně a zřetelně, neotřele, bez opakování. Zásady dobrého stylu vyžadují, abychom neopakovali slova příliš často. Na druhé straně, když o něčem mluvíme, potom je nutné klíčová slova opakovat, aby bylo zřejmé, o čem je řeč. V některých případech se může stát opakování celých frází stylistickým prostředkem, třeba refrény v písních a rýmy v poesii.

V některých slovech se hlásky opakují, příkladem může být slovo “plavala”. V češtině se prakticky nevyskytují dvě stejné hlásky po sobě, pokud vyloučíme spojení typu “brašna a aktovka”, zatím co v psané angličtině jsou některá zdvojená písmena (ll, nn) poměrně častá.

Předem by bylo dobré říci, že distribuce rozdělení vzdáleností lze popsat prakticky pomocí čtyř rozdělení: negativně binomiálního rozdělení (zkratka NB), logaritmicko normálního rozdělení (LN), exponenciálního rozdělení (EX) a Weilbullova rozdělení (WE). V některých případech lze použít současně více rozdělení s téměř stejným výsledkem, případně korelace je přijatelná pouze pro konce rozdělení nad určitou vzdálenost, kdy se přestává uplatňovat vliv jednotlivých slov.

Začněme u klasiky. Na internetu je k dispozici celé Shakespearovo dílo, z kterého jsem si vybral Sonety. Když jsem nahradil čísla sonetů jednotným znakem a studoval rozdělení tohoto znaku, dostal jsem délku sonetů vyjádřenou počtem znaků včetně interpunkčních znamének a nadbytečných úhozů.

Délka sonetů. Chisquare test.

Normální rozdělení. Průměr: 649.47, standardní deviace 22.1.

Dolní	Horní	Pozorovaná	Očekávaná
limit	limit	frekvence	frekvence	Chisquare
546	611.818	4	6.8	1.1575
611.818	620.909	8	8.3	.0107
620.909	630.000	11	14.0	.6496
630.000	639.091	23	20.0	.4373
639.091	648.182	26	24.2	.1268
648.182	657.273	32	24.8	2.0709
657.273	666.364	16	21.5	1.4148
666.364	675.455	20	15.8	1.1271
675.455	684.545	8	9.8	.3296
684.545	649	6	8.7	.8193

Chisquare = 8.14362 se 7 stupni volnosti. Hladina významnosti = 0.320101. (Omlouvám se za desetinné tečky, jsou podle americké praxe.)

Rozdělení je lehce bimodální, mezi dvěma vrcholy existuje údolí, sonetů dlouhých asi 660 znaků je méně a dlouhých asi 670 znaků je více, než by se mělo v ideálním případě očekávat. Rozdíl odpovídá asi dvěma slovům.

Vzdálenosti mezi mezerníky určují rozdělení délky slov (počet písmen ve slově)

Počet slov dané délky a typ rozdělení

Délka	Počet	Typ rozdělení, chisquare hodnota
1	547	LN, 0.253
2	2870	NB, 0, nad 8 = 0.521
3	3212	NB, 0, nad 16 = 0.208
4	4012	NB, 0.091 + 0.873
5	2714	NB, 0, nad 11 = 0.208
6	1744	EX, 0.069
7	1073	WE, 0.208
8	692	NB, 0.415
9	394	WE, 0.305
10	190	NB, 0.540
11	69	WE, 0.670
12	31	EX, 0.591
13	15	málo údajů
14	13	málo údajů
15	2	málo údajů
16	1
17	1
18	1

Nejčastěji se vyskytujícící slova se vyskytují v textu podle negativně binomiálního rozdělení, jako kdyby autor si házel kostkou. Pokud začneme podrobnější rozbor výsledků jednohláskovými slovy, korelace se zdá špatná. Avšak 45,9 % hodnoty chisquare tvoří rozdíl 9 slov (21 proti 12 očekávaným) ve vzdálenostech 51-60, lehce větších než je průměrná délka verše. podobné odchylky jsou i u dalších slov.

Slov délky 4 bylo příliš mnoho, program pro vyhodnocení selhal, takže jsem tato slova musel pro vyhodnocení rozdělit na dvě části. Zde jsou:

Dolní	Horní	Pozorovaná	Očekávaná
limit	limit	frekvence	frequence	Chisquare
1	1.500	476	464.1	.3045
1.500	2.500	349	356.9	.1770
2.500	3.500	284	274.5	.3268
3.500	4.500	207	211.1	.0811
4.500	5.500	172	162.4	.5691
5.500	6.500	131	124.9	.2988
6.500	7.500	90	96.1	.3815
7.500	8.500	68	73.9	.4672
8.500	9.500	54	56.8	.1397
9.500	10.500	32	43.7	3.1314
10.500	11.500	17	33.6	8.2070
11.500	12.500	22	25.8	.5728
12.500	13.500	24	19.9	.8541
13.500	14.500	25	15.3	6.1677
14.500	15.500	13	11.8	.1310
15.500	16.500	11	9.0	.4232
16.500	17.500	4	7.0	1.2559
17.500	18.500	8	5.3	1.3132
18.500	20.500	10	7.3	1.0175
20.500	38	13	10.5	.5743

Chisquare = 26.3937 s 18 stupni volnosti. Hladina významnosti = 0.09109.

Chisquare hodnota je dost nízká. Když si však prohlédneme tabulku, zjistíme, že je tu jen 49 vzdáleností 10 a 11 mezi slovy se čtyřmi písmeny proti 77.3 očekávaným a 25 vzdáleností 14 mezi slovy se čtyřmi písmeny proti 15.8 očekávaným. Tyto dva rozdíly tvoří jen jedno procento všech vzdáleností, avšak 66.3 % chisquare hodnoty.

Druhá polovina těchto slov dala jiný výsledek:

Dolní	Horní	Pozorovaná	Očekávaná
limit	limit	frekvence	frequence	Chisquare
níže	1.500	445	446.8	.00743
1.500	2.500	350	347.1	.02428
2.500	3.500	266	269.6	.04885
3.500	4.500	224	209.5	1.01059
4.500	5.500	161	162.7	.01785
5.500	6.500	127	126.4	.00294
6.500	7.500	88	98.2	1.05587
7.500	8.500	74	76.3	.06749
8.500	9.500	65	59.2	.55874
9.500	10.500	47	46.0	.02073
10.500	11.500	25	35.8	3.23328
11.500	12.500	31	27.8	.37515
12.500	13.500	23	21.6	.09429
13.500	14.500	16	16.8	.03435
14.500	15.500	14	13.0	.07401
15.500	16.500	16	10.1	3.42717
16.500	17.500	5	7.9	1.03815
17.500	18.500	4	6.1	.72436
18.500	20.500	8	8.4	.02124
20.500	22.500	4	5.1	.23064
22.500	44	9	7.7	.20717

Chisquare = 12.2746 s 19 stupni volnosti. Hladina významnosti = 0.873556.

Souhlas je velmi dobrý. Opět lze zjistit, že chybí 9 vzdáleností 11 a přebývá 6 vzdáleností 16. Obě poloviny se vzájemně statisticky významně neliší.

Tak bychom mohli podrobněji analyzovat i další vzdálenosti. To by však bylo nudné. Vážní zájemci najdou podrobnosti na mé stránce (mujweb.atlas.cz/veda/kunzmilan).

Dalším rozdělením je interpunkční znaménko tečka. Vzdálenosti mezi nimi odpovídají délce souvětí.

Vzdálenosti mezi tečkami. Negativně binomiální rozdělení.

Dolní	Horní	Pozorovaná	Očekávaná
limit	limit	frekvence	frequence	Chisquare
1	35.250	32	98.2	44.5925
35.250	69.500	56	78.2	6.2818
69.500	103.750	126	64.2	9.3820
103.750	138.000	29	52.8	0.7259
138.000	172.250	80	43.4	30.8804
172.250	206.500	75	35.7	43.3816
206.500	240.750	13	29.3	9.0786
240.750	275.000	30	24.1	1.4485
275.000	309.250	11	19.8	3.9122
309.250	343.500	21	16.3	1.3718
343.500	377.750	27	13.4	13.8755
377.750	412.000	4	11.0	4.4493
412.000	446.250	4	9.0	2.8067
446.250	480.500	7	7.4	.0245
480.500	514.750	3	6.1	1.5784
514.750	549.000	8	5.0	1.7739
549.000	617.500	8	7.5	.0317
617.500	686.000	2	5.1	1.8629
686	734	1	10.6	8.6593

Chisquare = 246.117 s 17 stupni volnosti. Hladina významnosti = 0.

Průměrná vzdálenost mezi tečkami je 174.62. To odpovídá čtyř veršům. Ostatní odchylky jsou u násobků délky veršů. Jednotlivé verše nejčastěji oddělují čárky:

Vzdálenosti mezi čárkami. Negativně binomiální rozdělení.

Dolní	Horní	Pozorovaná	Očekávaná
limit	limit	frekvence	frekvence	Chisquare
2	12.485	139	177.8	8.4545
12.485	23.970	364	328.5	3.8466
23.970	35.455	273	368.4	24.7261
35.455	46.939	500	289.7	152.7396
46.939	58.424	167	247.9	26.3870
58.424	69.909	123	169.1	12.5859
69.909	81.394	125	132.8	.4609
81.394	92.879	134	85.4	27.6319
92.879	104.364	50	64.3	3.1786
104.364	115.848	22	40.0	8.1144
115.848	127.333	30	29.4	.0134
127.333	138.818	30	17.9	8.1625
138.818	150.303	8	12.9	1.8772
150.303	161.788	5	7.8	.9872
161.788	173.273	7	5.5	.3881
173.273	268	10	9.6	.0179

Chisquare = 279.572 s 14 stupni volnosti. Hladina významnosti = 0.

Vzdálenostní analýza jednotlivých písmen dala velmi rozdílné výsledky, které jsou shrnuty v následující tabulce (hvězdičky označují příliš málo dat pro statistické testy, čísla jsou hodnoty chisquare).

Symbol	Malé	Velké	Obojí
a	4571, EX, 0	367, EX, 0.664	4938, EX, 0
b	1085, EX, 0.036	144, EX, 0.809	1229, WE, 0.087
c	1311, NB, 0.358	31, EX, 0.041	1342, EX, 0.522
d	2724, EX, 0	38, EX, 0.190	2762, NB, 0
e	9219, NB, 0	23, EX, 0.186	9242, NB, 0
f	1556, NB, 0.263	107, EX, 0.316	1663, NB, 0.993
g	1342, EX, 0.038	16*	1358, NB, 0.091
h	5002, EX, 0	65, EX, 0.867	5067, EX, 0
i	4232, EX, 0	443, LN, 0.883	4675, EX, 0
j	66, LN, 0.604	2*	68, LN, 0.604
k	547, EX, 0.011	6*	552, EX, 0.011
l	3033, EX, 0	58, EX, 0.237	3091, EX, 0
m	2004, WE, 0.671	90, WE, 0.098	2094, WE, 0.670
n	4445, NB, 0	73, EX, 0.826	4518, NB, 0
o	5579, NB, 0	127, LN, 0.685	5706, NB, 0
p	986, NB, 0	24*	1010, NB, 0
q	51, EX, 0.739	0	51, EX, 0.739
r	4165, NB, 0	17, EX, 0.573	4182, NB, 0
s	4846, NB, 0	141, LN, 0.672	4987, NB, 0
t	6754, NB, 0	459, EX, 0.197	7213, NB, 0
u	2299, EX, 0	21, EX, 0.785	2320, EX, 0,008
v	924, EX, 0.008	1*	925, EX, 0.008
w	1645, EX, 0	252, EX, 0.630	1897, EX, 0
x	60, EX, 0.926	0	60, EX, 0.926
y	1951, LN, 0	34, EX, 0.470	1985, EX, 0
z	20, EX, 0.931	0	20, EX, 0.931

Nejčastěji se uplatnilo exponenciální rozdělení, pak negativně binomiální rozdělení a logaritmicko normálního rozdělení. Weilbullovo rozdělení bylo nejlepší jen v jednom případě.

Věrnost korelace byla velmi rozdílná, vedle téměř dokonalé shody u souhlásky f s chi-square hodnotou 0.994 až k prakticky nulovým hodnotám u většiny samohlásek. Rozdíly mezi vypočtenými a pozorovanými počty byly největší u krátkých vzdáleností, kde se projevuje vliv používaných slov. Pokud se tyto vzdálenosti sloučily, dlouhé vzdálenosti se už daly lépe korelovat. Je zajímavé, že výsledky jsou závislé na tom, zda se jako bod useknutí vybere sudá nebo lichá vzdálenost.

Několik poznámek k jednotlivým písmenům. U velkého A se pozoroval velký rozdíl odpovídající délce verše (90 případů proti 75.8 očekávaným). To je stylistická schválnost, v sonetu číslo 66 téměř všechny verše začínají slovem And. Takové opakování u dvojice veršů se vyskytuje i jinde.

Velký počet samohlásek si vynutil rozdělení souboru na několik stejných částí (podle počtu vzdáleností). Při statistickém zpracování se ukázalo, že tyto části dávají statisticky významně odlišné výsledky (údaj v závorkách). V následujícím příkladě třetí část se liší od 1., 2. a 4. části, pak se liší dvě poslední části.

Písmeno (e + E)

	2. část	3. část	4. část	5. část
1. část	0.7108	[0.0009]	0.7964	0.0625
2. část		[0.0028]	0.5228	0.1304
3. část			[0.0004]	0.1511
4. část				[0.0371]

Dalším studovaným textem je anglické Matoušovo evangelium v Bibli krále Jamese. To dalo trochu rozdílné výsledky. Autorovi nebo autorům šlo především o sdělení, formální stránce je věnována menší pozornost. Délku vět popisuje opět lognormální rozdělení s průměrem: 150,35 a standardní odchylkou 104,74.

Dolní	Horní	Pozorovaná	Očekávaná
limit	limit	frekvence	frekvence	Chisquare
6	52	43	40.5	.16051
53	104	133	140.4	.39469
105	156	115	114.2	.00549
157	208	74	68.5	.43763
209	260	44	38.5	.74861
261	311	18	21.6	.64710
312	263	14	12.5	.18733
364	415	7	7.3	.01400
416	519	5	7.1	.62719
520	1240	3	5.1	.85961

Chisquare = 4.08207 se 7 stupni volnosti. Hladina významnosti = 0.770277.

Další interpunkční znaménko středník je používáno podle Weilbullova rozdělení. V studované části textu je 179 středníků, chisquare = 7.291 se 7 stupni volnosti. Hladina významnosti = 0.399. Také závorky uvozující četné poznámky, jsou v textu rozděleny podle Weilbullova rozdělení.

Vzdálenosti mezi mezerníky opět určují rozdělení délky slov (počtu písmen ve slově):

Počet slov dané délky a typ rozdělení

Délka	Počet	Typ rozdělení, chisquare hodnota
1	431	WE, 0.057
2	2124	LN, 0, nad 7 = 0.523
3	3303	NB, 0, 2 části nad 5 0.245 –0.729
4	2989	NB, 3 části 0.003 – 0.447
5	1820	LN, 0
6	940	WE, 0.449
7	755	EX, 0.595
8	379	LN, 0.469
9	289	WE, 0.797
10	144	WE, 0.579
11	52	LN, 0.896
12	21	EX, 0.526
13	9	málo údajů
14	6	málo údajů
15	1
16	1

Slova délky 2 následují po sobě mnohem častěji, než by se mělo očekávat podle Weibullova rozdělení (234 výskytů proti 76.9 očekávaným). Tento rozdíl činí 87.8 % hodnoty chi-square. Také slova délky 5 příliš často jdou bezprostředně po sobě (206 výskytů proti 70.7 očekávaným), 71 % hodnoty chi-square. Podobně lze analýzovat delší slova.

Jednotlivá písmena dala opět velmi rozdílné výsledky, které jsou shrnuty v následující tabulce:

Symbol	Malé	Velké	Obojí
a	7457, LN, 0	525, LN, 0.127	7982, LN, 0
b	1299, WE, 0.347	211, LN, 0.499	1510, WE, 0.050
c	1583, EX, 0.780	42, EX, 0.533	1625, EX, 0.047
d	4644, NB, 0	18, EX, 0.006	4670, NB, 0
e	12732, LN, 0	50, EX, 0.008	12777, LN, 0
f	1993, EX, 0.229	118, LN, 0.650	2111, EX, 0.006
g	1487, EX, 0.009	118, WE, 0.731	1605, EX, 0.011
h	8251, LN, 0	105, LN, 0.416	8356, LN, 0
i	5561, LN, 0.137	284, WE, 0.438	5845 LN, 0
j	44, LN, 0.137	285, LN, 0.266	329, LN, 0.120
k	599, WE, 0.474	10*	609, WE, 0.696
l	3547, WE, 0	76, EX, 0.725	3623, WE, 0
m	2490, EX, 0	47, WE, 0.111	1349, WE, 0
n	6682, WE, LN, 0	53, WE, 0.060	6735, LN, 0
o	6768, EX, 0	39, WE, 0.245	6807, EX, 0
p	1135, WE, 0.103	75, LN, 0.627	1210, WE, 0.202
q	20	0	20, EX, 386
r	4600, NB, 0	17*	4617, NB, 0
s	5871, NB, 0	155, WE, 0.521	6027, NB, 0- 930
t	9265, NB, 0	290, WE, 0.122	9555, NB, 0
u	2676, EX, 0	6*	2682, EX, 0
v	951, LN, 0.545	23, EX, 0.384	974, LN, 0.547
w	2076, EX, 0	135, LN, 0.144	2211, EX, 0
x	41	0	41, EX, 0.446
y	2109, LN, 0.015	27, EX, 0.033	2136, LN, 0.020
z	35, EX, 0.038	12*	47, EX, 0.069

Weibullovo rozdělení je nejlepší u 17 písmen, lognormalní rozdělení koreluje 25 případů, exponenciální rozdělení je nejlepší v 18 provedených testech a negativně binomialní rozdělení je nejlepší u 8 písmen.

Souhlas vypočtených hodnot s experimentálními je většinou špatný. Opět korelují lépe konce rozdělení. Při rozdělení souboru na více částí se části opět statisticky lišily, ještě více než v případě Sonetů. V následující tabulce jsou porovnány počty statisticky odlišných výsledků v případě, že text byl rozdělen na 6 částí. V horní polovině tabulky je počet statisticky odlišných výsledků pro malá písmena, v dolní polovině tabulky je rozdíl statisticky odlišných výsledků pro malá i velká písmena. Sloučení někdy zhoršilo rozdíly. Největší rozdíl existuje mezi prvou a třetí částí textu.

Část	1	2	3	4	5	6
1		4	7	4	2	4
2	-1		2	1	2	3
3	2	2		4	6	2
4	1	-1	2		1	1
5	1	-1	0	0		3
6	1	1	-1	1	3

Generátor náhody

Pro porovnání výsledů lexikální analýzy by bylo dobré mít srovnávací materiál. Jednou možností by byl nějaký generátor náhodných čísel. Nevýhodou náhodných číselje nereprodukovatelnost. Jako výhodnější jsem považoval analýzu čísla e = 2,718281828.... Toto číslo je výsledek algoritmu sečítajícího inversní faktoriály

e = 1 + 1/1! + 1/2! + 1/3! + 1/4! ....

Jednotlivé číslice se v čísle e vyskytují náhodně (i když začátek čísla tomu neodpovídá). J. Ventluka publikoval číslo e vypočtené na 100000 decimálních míst. Rozdělení vzdálenosti mezi číslicemi je korelováno nejlépe negativně binomiálním rozdělením.

Zde je příklad korelace pro číslici 6 v dekadickém zápisu jako příklad špatné korelace:

Dolní	Horní	Pozorovaná	Očekávaná
limit	limit	frekvence	frekvence	Chisquare
1	2.516	235	220.0	1.0207
2.516	5.240	253	248.8	.0720
5.240	7.964	98	124.3	5.5791
7.964	10.689	132	140.6	.5246
10.689	13.413	101	99.8	.0138
13.413	16.137	86	70.9	3.2247
16.137	18.861	41	35.4	.8765
18.861	21.585	39	40.1	.0279
21.585	24.310	31	28.4	.2299
24.310	27.034	14	20.2	1.9010
27.034	29.758	6	10.1	1.6607
29.758	32.482	7	11.4	1.7067
32.482	35.206	13	8.1	2.9575
35.206	40.655	10	8.6	.2173

Chisquare = 20.4604 s 14 stupni volnosti. Hladina významnosti = 0.116281

Druhým extrémem je číslice 7:

Dolní	Horní	Pozorovaná	Očekávaná
limit	limit	frekvence	frekvence	Chisquare
pod	1.000	106	101.5	.1998214
1.000	4.097	247	247.1	.0000688
4.097	7.194	175	179.7	.1220749
7.194	10.290	128	130.6	.0535168
10.290	13.387	93	95.0	.0416361
13.387	16.484	70	69.1	.0126758
16.484	19.581	49	50.2	.0294113
19.581	22.677	46	36.5	2.4664300
22.677	25.774	28	26.5	.0796353
25.774	28.871	20	19.3	.0253087
28.871	31.968	13	14.0	.0761013
31.968	35.065	8	12.9	1.8878681
35.065	38.161	6	6.7	.0674840
38.161	44.355	8	8.4	.0169562

Chisquare = 5.11795 s 13 stupni volnosti. Hladina významnosti = 0.972504

Shoda je téměř dokonalá. Vysvětlení rozdílu je v dekadické bázi čísla. Pokud zapíšeme číslo třeba v dvojkové soustavě, dostaneme zcela jiné výsledky.

V následující tabulce je přehled výsledků od binární do dvanáctkové soustavy. Uvedeny jsou tři platné hodnoty chisquare:

Základ	0	1	2	3	4	5	6	7	8	9	10	11
2	113	047
3	874	572	212
4	440	102	244	693
5	799	517	273	835	837
6	992	763	337	818	354	682
7	587	590	468	445	763	440	282
8	125	378	837	457	126	138	766	772
9	298	755	846	465	043	236	468	760	958
10	736	650	818	831	417	156	116	972	793	895
11	568	959	892	263	438	667	601	078	337	554	660
12	256	318	682	781	657	236	110	346	781	960	318	828

Je zřejmé, že nejhorší korelace je téměř vždy uprostřed řady, případně se střídá v zápisu více horších a lepších výsledků.

Genetická informace

Zmínil jsem na počátku Mendela, který objevil základní zákon dědičnosti. Dnes vědci dokážou číst genetickou informaci. Základem je náhodný kopolymer čtyř chemických sloučenin ribonukleových kyselin (adenin A, guanin G, tymin T a cytosin T), známý jako DNA. Tento polymer je program pro buněčný komputer. Buňka dokáže DNA reprodukovat, vytvořit její kopii, případně použije DNA jako vzor pro syntézu proteinů. Trojice ribonukleových kyselin odpovídá vždy jedné amino kyselině nebo také interpukčnímu znaménku, které odděluje proteiny. Syntézy proteinů se však účastní jen 20 amino kyselin, proto je tripletový kód nadbytečný a některé amino kyseliny jsou kódované několika triplety.

Po tomto vulgárním úvodu si můžeme ukázat výsledky vzdálenostní analýzy jednoho obávaného lidského genu, označovaného v odborné literatuře jako fragment FRAXGE 52 seq. Počátek zápisu má tvar:

GAATTCAGGT AAGCTATCTT GAAAGGGGAA ATATCAAAAGCTAGAGATCA GAGTAAGGCT GAGACTCAGA GTCAAGTGGG GAAGACTAAG TTGCAGTATG TACTGGCAGT GAAGATAAGT Po převedení tripletů na 64 znaků ASCII se dostal zápis ve formě (tuto barvu si vybral program sám) =RBiPkpPXyIKw?G@vY=DLywgYNYAQEZmS[F=>gUOUYQQqqIjYikIarTRy=jPmAMVf\^{}<wM>LpaWUJDkUBz\^{}VVJ

\^{}jG

fd\^{}ABF

Tato tajná řeč lidského těla má své statistické vlastnosti. Každý znak odpovídá aminokyselině s výjimkou koncových symbolů (G, F, J), které oddělují proteiny, případně jejich zlomky.

Triplet	Frekvence	Rozpětí	EX	WE	LN	NP	Pozn
TTT: < Phe	184	1-458	0.000	0.238	0.092	0.000
TTC: = Phe	92	1-708	0.109	0.255	0.055	0.118
Fenylalanin	276	1-458	0.000	0.551	0.159	0.000
TCT: ' Ser	125	1-303	0.623	0.615	0.018	0.623
TCC: A Ser	114	1-258	0.623	0.622	0.006	0.657
TCA: B Ser	100	2-367	0.581	0.877	0.084	0.039
TCG: C Ser	35	3-853	0.935	0.428	0.469	0.029
AGT: h Ser	85	2-526	0.025	0.021	0.008	0.001
AGC: i Ser	115	1-286	0.273	0.170	0.273	0.271	l
Serin	574	1-97	0.089	0.220	0.000	0.131
TAT: D Tyr	65	2-568	0.105	0.071	0.043	0.000	l
TAC: E Tyr	62	2-555	0.257	0.324	0.026	0.164	p
Tyrosin	127	1-330	0.090	0.061	0.002	0.106
TAA: F ochre	78	1-545	0.229	0.069	0.069	0.254
TAG: G amber	77	1-417	0.192	0.132	0.007	0.254	p
TGT: H Cys	105	1-294	0.978	0.951	0.144	0.977
TGC: I Cys	110	1-415	0.104	0.184	0.054	0.088	p
Cystein	215	1-150	0.929	0.936	0.034	0.854
TGA: J opal	133	3-347	0.708	0.289	0.084	0.000
TGG: K Try	152	1-279	0.937	0.991	0.299	0.912
TTA: > Leu	81	1-611	0.797	0.925	0.187	0.640
TTG: ? Leu	125	1-284	0.813	0.609	0.432	0.712
CTT: L Leu	124	1-324	0.343	0.233	0.002	0.341	l
CTC: M Leu	155	1-347	0.389	0.666	0.015	0.282
CTA: N Leu	88	1-381	0.771	0.815	0.009	0.764
CTG: O Leu	163	1-344	0.227	0.255	0.268	0.144
Leucin	736	1-63	0.000	0.000	0.000	0.000
CCT: P Pro	160	1-213	0.644	0.497	0.035	0.634	p
CCC: Q Pro	133	1-439	0.247	0.842	0.247	0.664
CCA: R Pro	161	1-292	0.263	0.140	0.000	0.369	c
CCG: S Pro	57	2-569	0.437	0.602	0.109	0.000
Prolin	511	1-87	0.000	0.000	0.000	0.002
CAT: T His	107	1-263	0.568	0.586	0.138	0.450	l
CAC: U His	116	1-442	0.140	0.647	0.010	0.136
Histidin	223	1-150	0.602	0.538	0.006	0.382
CAA: V Gln	112	1-301	0.434	0.432	0.126	0.395	p
CAG: W Gln	166	1-242	0.213	0.103	0.002	0.177	p
Glutamin	278	1-150	0.602	0.538	0.006	0.382
CGT: X Arg	41	1-667	0.615	0.829	0.565	0.596
CGC: Y Arg	39	1-632	0.104	0.184	0.054	0.099	p
CGA: Z Arg	36	8-738	0.823	0.631	0.304	0.000
CGG: \"A Arg	54	1-552	0.761	0.854	0.026	0.730
AGA: j Arg	132	2-213	0.517	0.367	0.001	0.000
AGG: k Arg	184	1-188	0.247	0.182	0.001	0.233
Arginin	486	1-92	0.072	0.042	0.000	0.073
ATT: \"O Ile	93	2-421	0.002	0.001	0.000	0.000	p
ATC: \"U Ile	91	1-357	0.238	0.198	0.043	0.239
ATA: \^{} Ile	80	1-724	0.023	0.445	0.426	0.023	l
Ileucin	264	1-199	0.004	0.007	0.031	0.032
ATG: \_{} Met	68	1-487	0.443	0.293	0.129	0.444
ACT: ` Thr	102	1-246	0.863	0.574	0.038	0.899
ACC: a Thr	102	3-459	0.774	0.587	0.116	0.000	p
ACA: b Thr	101	1-241	0.885	0.826	0.226	0.868
ACG: c Thr	33	1-988	0.355	0.178	0.032	0.370
Threonin	338	1-129	0.284	0.286	0.001	0.103
AAT: d Asn	108	1-345	0.277	0.205	0.007	0.278	c
AAC: e Asn	78	1-456	0.001	0.001	0.013	0.001
Asparagin	186	1-250	0.948	0.942	0.048	0.759
AAA: f Lys	257	1-282	0.000	0.001	0.000	0.000	l, p
AAG: g Lys	109	1-338	0.012	0.168	0.004	0.012
Lysin	366	1-206	0.000	0.000	0.000	0.000
GGT: l Val	74	1-446	0.311	0.246	0.062	0.346
GTC: m Val	70	2-601	0.050	0.306	0.153	0.630	p
GTA: n Val	62	4-636	0.021	0.018	0.007	0.008
GTG: o Val	118	1-272	0.199	0.182	0.002	0.196
Valin	324	1-151	0.072	0.047	0.000	0.265
GCT: p Ala	126	1-377	0.544	0.411	0.202	0.570
GCC: q Ala	132	1-221	0.417	0.346	0.003	0.437
GCA: r Ala	110	1-318	0.272	0.586	0.377	0.272
GCG: s Ala	42	2-421	0.353	0.111	0.042	0.113
Alanin	410	1-142	0.265	0.408	0.011	0.073	l
GAT: t Asp	105	1-346	0.750	0.852	0.146	0.749
GAC: u Asp	61	2-634	0.464	0.301	0.003	0.062	p
Aspartová kyselina	166	1-207	0.312	0.312	0.009	0.598	p
GAA: v Glu	100	1-395	0.230	0.353	0.141	0.234	p
GAG: w Glu	179	1-240	0.313	0.852	0.045	0.229	l
Glutamová kyselina	279	1-180	0.006	0.101	0.003	0.001	l
GGT: x Gly	105	1-346	0.615	0.852	0.145	0.749
GGC: y Gly	158	2-209	0.192	0.145	0.006	0.000	p
GGA: z Gly	123	1-278	0.022	0.015	0.000	0.021
GGG: \"a Gly	144	1-245	0.086	0.854	0.093	0.730	l, p
Glycin	530	1-81	0.000	0.001	0.000	0.000

p= vrchol představující asi polovinu hodnoty chisquare

l= údolí představující asi polovinu hodnoty chisquare

c= kráter – údolí lemované na obou stranách vrcholy

Podrobná analýza by mohla být zajímavá pro odborníky. Vedle výtečných korelací se vyskytují zcela rozházené výsledky. Můžeme si všimnout třeba glycinu. Dva triplety korelují velmi dobře s Weilbullovým rozdělením, avšak souhrn se chová zcela nevypočítatelně.

Závěr

Když člověk začíná něco nového, nikdy určitě neví, zda se mu to podaří a zda výsledek bude k něčemu dobrý. To platí i pro analýzy vzdáleností mezi symboly. Zatím existuje příliš málo dat, aby bylo možné hodnotit užitečnost této metody.

U DNA máme možnost hledat Stvořitele (a ptát se, proč pustil do světa nepodařený výsledek, který vede k Downovu syndromu) nebo hledat možnosti, jak mohlo dojít ke vzniku DNA samovolně. Tři pozorovaná rozdělení, negativně binomiální, logaritmicko normální a exponenciálního rozdělení jsou známá v makromolekulární chemii polymerů. Je třeba známo, že logaritmicko normální rozdělení hmotnosti polymeru vzniká při polymeraci na částicových katalyzátorech. V přírodě by takovými katalyzátory mohly být silikáty.

U textů známe autora, i jeho záměry. Pokud sami píšeme, máme možnost si ověřovat celý proces. Přes to rozdělení vzniká zcela nevědomě, žádný autor si neřekne, rozmístím souhlásku f podle tohoto rozdělení.

Shakespeare zacházel s jazykem jinak než autor (přesněji řečeno překladatel, řeckž originál jsem nestudoval) Evangelia. Dbal nejen na to co chtěl vyjádřit, ale také na krásu svých veršů. To se projevilo ve výsledcích. Oba texty se v mnoha směrech liší. Formální statistickou analýzu by měla doplnit analýza obsahu, která by interpretovala pozorované rozdíly v jednotlivých částech obou děl, čím jsou způsobeny. V obou případech je rozdělení vzdáleností bezděčným výsledkem vědomého úsilí autorů.

Ve výtvarném umění je krása spojována se symetrií. Ostatně i poesie vyžaduje pravidelné střídání přízvučných a nepřízvučných slabik a rýmů.

Symetrie se dá měřit. Třeba lze zjistit počet prvků symetrie.Základní grupa symetrie S_n je spojena s permutacemi n různých symbolů, které mohou tvořit cykly různé délky. Permutace lze klasifikovat podle počtu cyklů a jejich délek.

Texty jsou v podstatě řady symbolů, které se mohou opakovat. Z dostatečně velké zásoby písmen lze vysázet všechny knihy, které kdy existovaly nebo budou existovat. Tyto texty lze oceňovat podle frekvence symbolů, což je prvá použitelná míra. Podle této míry není rozdíl mezi písmeny v tiskařské kase a ve vysázeném textu, frekvence symbolů se při sazbě nemění.

Druhou možnou mírou je stupeň ”promíchání” symbolů v textu. Takovou mírou jsou vzdálenosti mezi symboly.

Boltzmann spojil symetrii rozdělení energie s termodynamickou funkcí známou jako entropie. Podobná funkce se používá i v teorii informace. To už jsou však problémy, které by vyžadovaly samostatné pojednání.

Literatura

Uvádím náhodný výběr relevantní literatury v různých formátech:

P. Eisner, Rady Čechům, jak se hravě přiučiti češtině, Odeon, Praha 1992, s. 28.

J. O. Irwin, The Place of Mathematics in Medical and Biological Statistics, J. Royal Statistical Soc. A 126, 1963, Part 1, s. 1-45.

Haitun, S. D. (1982a) Stationary Scientometric Distributions I: Different Approximations. Scientometrics, , 4, 525.

Haitun, S. D. (1982b) Stationary Scientometric Distributions II: Non Gaussian Nature of Scientific Activities. Scientometrics, 4, 89 - 101.

Haitun, S. D. (1982c) Stationary Scientometric Distributions III: The Role of the Zipf Distribution. Scientometrics, 5, 375 - 395.

Harary, F.; Paper, H. H. (1957) Toward a General Calculus of Phonemic Distribution, Language, 33, 143-169.

Huen, Y. K. Representation of Biological Sequences Using Point Geometry Analysis, Visualizing Biol. Inf.; Pickover, C. A. Ed.; Word Scientific, Singapore, 1995, 165 - 182.

Irwing, J. O. The Place of Mathematics in Medical and Biological Statistics, {\it J. Royal. Statistical Soc. A, 1963, 126, 1 - 45.

Kunz, M. (1987) Time Spectra of Patent Information, Scientometrics, 11, 163 - 173.

Kunz, M. (1993) About metrics of bibliometrics, J. Chem. Inform. Comput. Sci., 33, 193 – 196.

M. Kunz, Matrix Theory of Information, Science and Science of Science, 3, 1994, č. 5, s. 141- 142.

Kunz, M. (1995) Plots against Information Laws, Science and Science of Science, 3, (1-2), 91 -- 97.

Kunz, M. ; Rádl, Z. (1998) Distribution of Distances in Information Strings, J. Chem. Inform. Comput. Sci., 38, 374-378.

A. A. Markov, Primer Statističeskogo isledovanija nad tekstom "Jevgenija Oněgina " illustrujuščij svjaz ispytanij v cep, Bull. Acad. Imp. Scien. de St. Pétersbourg. Ser VI, 7,1913, s. 153-162.

McGrath, W. E. Periodicity in Academic Library Circulation, a Spectral Analysis, in Kretschmer, H. Ed. Fourth International Conference on Bibliometrics, Informetrics and Scientometrics, September 11-15,1993, Berlin, Book of Abstracts, Part I.

Ninio, J.; Mizraji, E. Perceptible Features in Graphical Representations of Nucleic Acid Sequences, Visualizing Biol. Inf.; Pickover, C. A. Ed.; Word Scientific, Singapore, 1995, 33 - 42.

Schilling, M. F. Long Run Predictions, Math. Horizon., Spring 1994, 10 - 12.

Schmitt, A. O.; Ebeling, W.; Herzel, H. The Modular Structure of Informational Sequences, Biosystems, 1996, 37, 199 - 210.

Stanley, H. E.; Buldyrev, S. V.; Goldberger, A. L.; Havlin, S.; Mantegna, R. N.; Peng, C-K.; Simons, M. NATO ASI Ser., Ser. E, 1996, 322 (Physics of Biomaterials: Fluctuations, Selfassembly and Evolution) 219 - 234.

M. Těšitelová, Otázky lexikální statistiky, Academia, Praha 1974.

M. Těšitelová a kolektiv, O češtině v číslech, Academia, Praha 1987.

J. Ventluka, CHIP, CD-ROM, 1999.

O.U. Yule, The Statistical Sudy of Literary Vocabulary, University Press, Cambridge 1944.