Jízdní řády kvantované informace

Milan Kunz (kunzmilan@seznam.cz)

Trochu osobní úvod

Musel jsem trochu déle čekat v patentové kanceláři sídlící na Mendlově náměstí. Tak se mi dostala do rukou MF Dnes z 1. 12. 2001, kde v příloze Věda je článek J. Tučka “Kvantový chaos řídí i autobusy”, který popularizuje výsledky výzkumu docenta Šeby a jeho doktoranda Krbálka, kteří studovali intervaly mezi příjezdy jednotlivých autobusů na zastávky v Mexiku. Oba fyzikové také zjistili, “že podle stejných pravidel se shlukují i písmena v textu nebo noty v melodii. Znamená to, že například mezi dvěma písmenky “b” v psaném textu je nejčastěji stejný odstup a pak se plynule zmenšuje počet těchže písmenek, jejichž odstup je menší či větší.”

Dále: “Zdá se, že tento způsob rozdělení prvků, dosud známý pouze v kvantové fyzice, je univerzální i v jiných náhodných systémech. Právě to je úplně nové světlo, které jsem do problematiky vnesli.”

Četl jsem článek se smíšenými pocity. Musel jsem uznat, že jsem také začínal podobně, také jsem si kdysi myslel, že jsem objevil Ameriku, ačkoliv existovaly celé vědní obory, které se podobnou problematikou zabývaly dávno přede mnou. Na druhé straně získávám spojence proti akademiku Zahradníkovi, který mne označil za ignoranta, který se plete do věcí, kterým nerozumí, protože jsem se odvážil vyjádřit pochybnosti o interpretaci kvantové mechaniky. Zanechejme bolestínských úvah a vraťme se k problematice kvantového chaosu, ve které budou mít své místo jak patenty, tak Mendel, přesněji statistické vlastnosti DNA. Budeme se však zabývat statistickými vlastnostmi lidské řeči, ovšem jen její psané formy, protože mluvená forma asi má trochu jiné vlastnosti. Obecně se jedná o rozdělení informace. Nejprve trochu matematiky.

Binomiální a negativně binomiální rozdělení

Při hodech mincí jsou prakticky možné dva výsledky, podle císařské tradice hlava nebo orel, při zápisu výhodně 0 a 1. Zanedbává se možnost, že mince zůstane stát na hraně, jako kdyby mince měla nulovou tloušťku, takže ji trochu idealizujeme. Představme si několik výsledků experimentu se stejným počtem 12 hodů:

000000111111

010101010101

001000111011.

Která řada je pravděpodobnější? Zásadně mají všechny tři stejnou pravděpodobnost, ale u poslední řady můžeme předpokládat, že dostaneme častěji podobný výsledek, kdy budeme muset ověřovat každou polohu, abychom řady nezaměnili. Prvé dvě řady jsou téměř jedinečné, existují jen jejich zrcadlové obrazy, u třetí řady existuje více podobných řad. Prvé dvě řady jsou uspořádané, prvky se pravidelně opakují, třetí řada je zamíchána způsobem, který můžeme označit za opravdu náhodný. Probereme si všechny možné výsledy série 4 hodů

 

0000

0001

0011

0111

1111

 

 

0010

0101

1011

 

 

 

0100

1001

1101

 

 

 

1000

1010

1110

 

 

 

 

0110

 

 

 

 

 

1100

 

 

Součet

1

4

6

4

1

Takové tabulky se dají sestavovat od jednoho do nekonečného počtu hodů. Počty výsledků tvoří Pascalův trojúhelník. Tady je sestaven pro výsledek 1, stejná tabulka je i pro výsledek 0, trojúhelník je symetrický. Všimněte si, že součty jsou mocniny čísla dvě. Tabulka je doplněna i o nultou mocninu, což je jedna a případ žádného hodu, kdy nemůže jednotka zásadně padnout, protože se hod vůbec neuskuteční.

Počet jednotek(m)

hodů (n)

0

1

2

3

4

5

6

Součet výsledků

0

1

 

 

 

 

 

 

1

1

1

1

 

 

 

 

 

2

2

1

2

1

 

 

 

 

4

3

1

3

3

1

 

 

 

8

4

1

4

6

4

1

 

 

16

5

1

5

10

10

5

1

 

32

6

1

6

15

20

15

6

1

64

Pascalův trojúhelník je základem binomiálního rozdělení, které přiřazuje určitou hodnotu každému poměru dvou prvků. Hodnoty v tabulce lze získat buď postupným sčítáním dvou hodnot v předcházejícím řádku, nebo přímo pomocí binomického koeficientu, což je podíl faktoriálů n!/m!(n-m)!. Největší počet možností je pro řady s poměrem obou výsledků 1:1. Mluvíme tu o pravděpodobnosti a náhodě, čím by byl poměr posunut vzdálenější, tím by byl méně pravděpodobný.

S počtem hodů bychom mohli jít do nekonečna. V tom případě se stávají absolutní počty možných výsledků nesmyslně velké a pohodlněji počítáme s relativními čísly, poměry počtu příznivých případů ke všem možným. Místo binomického rozdělení dostaneme normální rozdělení, které odvodil Gauss, když se zabýval chybami astronomických měření.

My jsme však začali autobusy, tak se držme tohoto příkladu. Prázdná zastávka, to je zřejmě 0, autobus na zastávce 1. Pokud budeme zaznamenávat v pravidelných intervalech, výsledkem bude binární sekvence. Nejprve si zanalyzujeme model. V příkladu

000000111111

010101010101

001000111011

čekáme v prvém případě na prvý autobus 7 intervalů, pak vždy jen 1 interval, v druhém případě je přestávka vždy 2 intervaly, autobusy jezdí zcela pravidelně, a v třetím případě čekáme postupně 3, 4, 1, 1, 2, 1 intervaly.

Pokud si dáme práci a spočítáme vzdálenosti mezi stejnými výsledky všech binárních řadách, dostaneme tabulku podobnou Pascalu trojúhelníku. Tato tabulka je základem negativně binomiálního rozdělení, což je jakási inversní forma binomiálního rozdělení.

Negativně binomiální rozdělení bylo ještě nedávno matematickou kuriositou, protože výpočty jeho parametrů bez použití počítače jsou velmi obtížné. Obvyklé charakteristiky, jako jsou průměr a rozptyl mají jen malou vypovídací hodnotu. Teď sice počítač dá výsledky, avšak jejich interpretace je stále dosti těžká. Nejsnadněji se dají posoudit rozdíly mezi teoretickým rozdělením a experimentálními výsledky.

Teď si představme, že místo mince budeme házet kostkou. Ta může mít tvar krychle, se stěnami označenými 0, 1, 2, 3, 4, 5 (místo obvyklých 1, 2, 3, 4, 5 a 6 teček) nebo pravidelného čtyřstěnu se stěnami označenými 0, 1, 2, 3. Obecně si můžeme představit jako kostku pravidelný n-stěn, případně hranol, který se může jen kutálet. Výsledky postupných hodů analogicky s binomiálním rozdělením popisuje n-nomiální rozdělení, obecně polynomiální rozdělení, kde počet prvků určuje polynomický koeficient, což je analogie binomického koeficientu. Podrobnosti nás zde nemusí zajímat. Jen si musíme uvědomit, že analogicky s negativně binomiálním rozdělením by měla existovat negativně polynomiální rozdělení. Tato rozdělení však nejsou, pokud vím, prakticky rozpracována, aby se podle nich dalo jednoduše počítat.

Možná to ani není potřeba. Podle mých zkušeností negativně polynomiální rozdělení lze modelovat sérií negativně binomiálních rozdělení.

Představte si, že v tomto textu studujeme vzdálenosti mezi písmeny a. Všechna ostatní písmena (případně i interpunkci) nahradíme jedním neutrálním znakem. Dostaneme tak binomiální rozdělení, které bychom mohli modelovat jakousi falešnou mincí, u které jedna strana bude pravidelně padat mnohem častěji než druhá. Takovou minci bychom si mohli představit jako kuličku s vypilovanou ploškou, kde poměry ploch by odpovídaly poměru četnosti daného znaku ke znakům ostatním.

Po prostudování vlastností jednoho rozdělení postoupíme k dalšímu písmenu a dostaneme tak soubor pro všechna písmena abecedy. Tady existuje ještě možnost rozlišovat malá a velká písmena. Než k přistoupíme k praktickým příkladům, musíme ještě absolvovat historický úvod.

Krátká historie statistiky informace

Musím se přiznat, že jsem zaskočil sám sebe otázkou, kde začít s historií problému statistických studií informace. Prehistorii problému jsem nestudoval, bývá spojována s počítáním slov v Bibli. Osobně bych přiznal prvenství Gutenbergovi, který asi brzo zjistil při sazbě Bible, že některých liter potřebuje mít v tiskařské kase mnohem více než jiných, protože se často v textu opakují. Ani nevím, kdo určil obecně přijímané frekvence písmen v jednotlivých jazycích.

Prvý kořen, který se však téměř úplně odlomil, byl ruský matematik Markov (toho by fyzikové měli znát. Z jeho zájmu, podle jakých pravidel se střídají hlásky se samohláskami v Puškinově Evženu Oněginovi vyrostl samostatný obor matematiky.

Druhý kořen stromu poznání tvoří praktický Američan Zipf. Ten se začal začátkem minulého století zajímat o frekvenci jednotlivých slov v angličtině, aby naučil přistěhovalce nejprve nejčastěji se vyskytující slova, s rozumným předpokladem, že slovům, která uslyší za život jen jednou, rozumět nemusí a je tedy zbytečné ztrácet čas s jejich memorováním. Zipf zjistil, že když vynese logaritmy frekvence nejčastěji se vyskytujících slov proti logaritmu jejich pořadí, tvoří body na počátku grafu zcela přijatelnou přímku. Konec představovaný řídce se vyskytujícími slovy potom začne od přímky odpadat. Zipf použil pořádkovou statistiku.

Třetím zdrojem je další Američan Lotka, který si dal práci se statistikou produktivity autorů v desetiletém indexu Chemical Abstracts, kolik kdo má publikací. Našel rozdělení podobné Zipfovu, jenomže pozorovanému z opačného konce. Logaritmus počtu autorů s n publikacemi koreloval proti logaritmu počtu jejich publikací. Na 10000 autorů s 1 publikací připadne přibližně 10 autorů s 10 publikacemi a jen 1 autor se 100 publikacemi.

Při obvyklé praxi univerzitní profesor má několik doktorantů, kterým zadá téma, na kterém pracují a výsledek práce potom společně publikují. Absolventi pak odcházejí učit na střední školy, do úřadů a průmyslu a končí s vědeckou prací, případně musí jako asistenti pracovat sami a mají jen málo vlastních publikací.

Kosý tvar rozdělení produktivity autorů byl charakterizován pesimistickým modelem podle apoštola Matouše: “Tomu kdo má, bude přidáno a tomu kdo nemá, bude vzato i to, co má”. Zakladatel scientometrie (nepleťte si to se scientologií) Solla de Price se pokusil popsat tento tvar rozdělení optimistickým modelem podle zásady: “Úspěch budí úspěch”. Nejtěžší podle něj je vždy prvý krok, další kroky a tedy i publikace jsou stále snazší. V určitém smyslu měl pravdu, protože prestižním autorům projde leccos, co by neprošlo nýmandům, avšak oba modely jsou rovnocenné.

Měl bych zmínit i nositele Nobelovy ceny za fyziku Shockleyho, který se zajímal o počty publikací svých podřízených a chtěl je podle toho i odměňovat. Ten použil jednoduše logaritmicko normální rozdělení. Když jsme u toho odměňování, rozdělení bohatství mezi lidmi, které studoval už v předminulém století Pareto, je stejného typu.

A pak tu byl anglický statistik Yule. Ten si krátil nejtěžší chvíle německých náletů na Anglii počítáním slov ve svých oblíbených knihách. A také v projevech státníků, včetně Hitlera, zda se dají zjistit statistické rozdíly v používání slov. Ke svému překvapení našel rozdělení podobné Lotkovu. Nejvíce je slov, které se opakují pouze jednou. Slova vyskytující se v textu pouze jednou, jsou slova vzácná a neotřelá. Jejich velký počet je důkazem stylistické obratnosti a pečlivosti autora.

Tady by historický úvod mohl končit, protože pak se problému začíná věnovat příliš mnoho vědců. Ještě bych ještě zmínil lingvistku Těšitelovou, která pečlivě počítala slova v knihách českých autorů, a zběhlého fyzika Vlachého, který s neobyčejnou pílí opakoval lotkovské studie na všech souborech,které mu přišly pod ruku.

Já jsem se k problematice dostal v rámci normalizace. Z laboratoře jsem byl vykopnut a skončil jsem v patentovém oddělení. Měl jsem za úkol rešerše. V rámci předstírání činnosti jsem si dal za cíl zjistit, jak patentuje konkurence. Vedoucí firmy měly ročně desítky patentů, což svědčilo o tom, že soustřeďují na úkoly mnohem více sil než bylo zvykem u nás. Tomu odpovídaly i výsledky a hlavně praktické realizace výzkumu.

Rešerši jsem chtěl publikovat a tak jsem ji vylepšil samorostlou teorií. Tou jsem si zamotal hlavu sám sobě. Spojil jsem rozdělení patentů s entropií a později se symetrií. Zkoušel jsem korelovat své pomocí různých rozdělení, i dvojitou logaritmickou transformaci, ale nejlépe se mi líbilo lognormální rozdělení, případně vylepšené substitucí, která modifikovala počátek rozdělení.

Kolega Vlachý si všimnul mé české publikace a doporučil mi publikovat v časopise Scientometrics. Tam tehdy uplatnil sérii článků Rus Haitun, který s apoštolským zanícením zdůrazňoval specifičnost extrémně kosých rozdělení jako zvláštnost informace. Tak jsem se pustil do polemiky, protože třeba rozdělení chemických prvků ve Vesmíru, nebo vesmírných těles je velmi kosé.

Existují celé teorie týkající se Zipfova a Lotkova rozdělení, jejich matematických vlastností. Obě rozdělení se zpracovávaly zcela odděleně, ačkoliv se jedná o popis dvou konců jednoho jevu. Tak jsem ukázal, že lze Lotkovy výsledky korelovat hlava proti konci (ocasu), jako když se had zakousne do svého ocasu. Dostanou se většinou přijatelné přímky.

Rozdělení informace je deformované. Jeho tvar je useknutý téměř u poloviny předpokládaného zvonového tvaru. Chybějící část lze vysvětlovat kvantováním, bylo by třeba možné ji přičítat nezjištěnému počtu neúplných publikací, které se vůbec v tisku neobjevily. Deformovaný tvar působí někdy potíže při statistických výpočtech, některé běžně používané algoritmy vedou k chybným závěrům.

Já jsem měl v patentové rešerši vedle počtů přihlášek také údaje o datech jejich podání. Když se data významných přihlašovatelů s mnoha desítkami přihlášek vynesla na časovou osu, podobala se čárovým spektrům chemických sloučenin. Data nebyla rozdělena rovnoměrně, ale vyskytovala se ve shlucích, v jakých jezdí autobusy. Tak jsem dostal nápad studovat intervaly mezi jednotlivými přihláškami.

Už tehdy jsem si uvědomoval možnosti podobných studií pro jiné řady, jako jsou texty, iracionální čísla nebo genetická informace. To však muselo počkat, až jsem byl v penzi a měl doma počítač.

Kolega RNDr Z. Rádl CSc mi vypracoval programy, které umožňují analýzovat vzdálenosti mezi znaky v ASCII souborech různých typů. Nyní stačí vzít text vhodné délky, zadat symbol, a dostane se výpis vzdáleností mezi daným symbolem, který lze studovat pomocí vhodného programu, třeba lze získat jeho charakteristiku pomocí Fourierovy analýzy.

Některé praktické výsledky

Lidská řeč je fascinující fenomén. Vyjma několika řídkých výjimek většinu z nás stojí mnoho úsilí vyjadřovat se jasně a zřetelně, neotřele, bez opakování. Zásady dobrého stylu vyžadují, abychom neopakovali slova příliš často. Na druhé straně, když o něčem mluvíme, potom je nutné klíčová slova opakovat, aby bylo zřejmé, o čem je řeč. V některých případech se může stát opakování celých frází stylistickým prostředkem, třeba refrény v písních a rýmy v poesii.

V některých slovech se hlásky opakují, příkladem může být slovo “plavala”. V češtině se prakticky nevyskytují dvě stejné hlásky po sobě, pokud vyloučíme spojení typu “brašna a aktovka”, zatím co v psané angličtině jsou některá zdvojená písmena (ll, nn) poměrně častá.

Předem by bylo dobré říci, že distribuce rozdělení vzdáleností lze popsat prakticky pomocí čtyř rozdělení: negativně binomiálního rozdělení (zkratka NB), logaritmicko normálního rozdělení (LN), exponenciálního rozdělení (EX) a Weilbullova rozdělení (WE). V některých případech lze použít současně více rozdělení s téměř stejným výsledkem, případně korelace je přijatelná pouze pro konce rozdělení nad určitou vzdálenost, kdy se přestává uplatňovat vliv jednotlivých slov.

Začněme u klasiky. Na internetu je k dispozici celé Shakespearovo dílo, z kterého jsem si vybral Sonety. Když jsem nahradil čísla sonetů jednotným znakem a studoval rozdělení tohoto znaku, dostal jsem délku sonetů vyjádřenou počtem znaků včetně interpunkčních znamének a nadbytečných úhozů.

Délka sonetů. Chisquare test.

Normální rozdělení. Průměr: 649.47, standardní deviace 22.1.

Dolní

Horní

Pozorovaná

Očekávaná

 

limit

limit

frekvence

frekvence

Chisquare

546

611.818

4

6.8

1.1575

611.818

620.909

8

8.3

.0107

620.909

630.000

11

14.0

.6496

630.000

639.091

23

20.0

.4373

639.091

648.182

26

24.2

.1268

648.182

657.273

32

24.8

2.0709

657.273

666.364

16

21.5

1.4148

666.364

675.455

20

15.8

1.1271

675.455

684.545

8

9.8

.3296

684.545

649

6

8.7

.8193

Chisquare = 8.14362 se 7 stupni volnosti. Hladina významnosti = 0.320101. (Omlouvám se za desetinné tečky, jsou podle americké praxe.)

Rozdělení je lehce bimodální, mezi dvěma vrcholy existuje údolí, sonetů dlouhých asi 660 znaků je méně a dlouhých asi 670 znaků je více, než by se mělo v ideálním případě očekávat. Rozdíl odpovídá asi dvěma slovům.

Vzdálenosti mezi mezerníky určují rozdělení délky slov (počet písmen ve slově)

Počet slov dané délky a typ rozdělení

Délka

Počet

Typ rozdělení, chisquare hodnota

1

547

LN, 0.253

2

2870

NB, 0, nad 8 = 0.521

3

3212

NB, 0, nad 16 = 0.208

4

4012

NB, 0.091 + 0.873

5

2714

NB, 0, nad 11 = 0.208

6

1744

EX, 0.069

7

1073

WE, 0.208

8

692

NB, 0.415

9

394

WE, 0.305

10

190

NB, 0.540

11

69

WE, 0.670

12

31

EX, 0.591

13

15

málo údajů

14

13

málo údajů

15

2

málo údajů

16

1

 

17

1

 

18

1

 

Nejčastěji se vyskytujícící slova se vyskytují v textu podle negativně binomiálního rozdělení, jako kdyby autor si házel kostkou. Pokud začneme podrobnější rozbor výsledků jednohláskovými slovy, korelace se zdá špatná. Avšak 45,9 % hodnoty chisquare tvoří rozdíl 9 slov (21 proti 12 očekávaným) ve vzdálenostech 51-60, lehce větších než je průměrná délka verše. podobné odchylky jsou i u dalších slov.

Slov délky 4 bylo příliš mnoho, program pro vyhodnocení selhal, takže jsem tato slova musel pro vyhodnocení rozdělit na dvě části. Zde jsou:

Dolní

Horní

Pozorovaná

Očekávaná

 

limit

limit

frekvence

frequence

Chisquare

1

1.500

476

464.1

.3045

1.500

2.500

349

356.9

.1770

2.500

3.500

284

274.5

.3268

3.500

4.500

207

211.1

.0811

4.500

5.500

172

162.4

.5691

5.500

6.500

131

124.9

.2988

6.500

7.500

90

96.1

.3815

7.500

8.500

68

73.9

.4672

8.500

9.500

54

56.8

.1397

9.500

10.500

32

43.7

3.1314

10.500

11.500

17

33.6

8.2070

11.500

12.500

22

25.8

.5728

12.500

13.500

24

19.9

.8541

13.500

14.500

25

15.3

6.1677

14.500

15.500

13

11.8

.1310

15.500

16.500

11

9.0

.4232

16.500

17.500

4

7.0

1.2559

17.500

18.500

8

5.3

1.3132

18.500

20.500

10

7.3

1.0175

20.500

38

13

10.5

.5743

Chisquare = 26.3937 s 18 stupni volnosti. Hladina významnosti = 0.09109.

Chisquare hodnota je dost nízká. Když si však prohlédneme tabulku, zjistíme, že je tu jen 49 vzdáleností 10 a 11 mezi slovy se čtyřmi písmeny proti 77.3 očekávaným a 25 vzdáleností 14 mezi slovy se čtyřmi písmeny proti 15.8 očekávaným. Tyto dva rozdíly tvoří jen jedno procento všech vzdáleností, avšak 66.3 % chisquare hodnoty.

Druhá polovina těchto slov dala jiný výsledek:

Dolní

Horní

Pozorovaná

Očekávaná

 

limit

limit

frekvence

frequence

Chisquare

níže

1.500

445

446.8

.00743

1.500

2.500

350

347.1

.02428

2.500

3.500

266

269.6

.04885

3.500

4.500

224

209.5

1.01059

4.500

5.500

161

162.7

.01785

5.500

6.500

127

126.4

.00294

6.500

7.500

88

98.2

1.05587

7.500

8.500

74

76.3

.06749

8.500

9.500

65

59.2

.55874

9.500

10.500

47

46.0

.02073

10.500

11.500

25

35.8

3.23328

11.500

12.500

31

27.8

.37515

12.500

13.500

23

21.6

.09429

13.500

14.500

16

16.8

.03435

14.500

15.500

14

13.0

.07401

15.500

16.500

16

10.1

3.42717

16.500

17.500

5

7.9

1.03815

17.500

18.500

4

6.1

.72436

18.500

20.500

8

8.4

.02124

20.500

22.500

4

5.1

.23064

22.500

44

9

7.7

.20717

Chisquare = 12.2746 s 19 stupni volnosti. Hladina významnosti = 0.873556.

Souhlas je velmi dobrý. Opět lze zjistit, že chybí 9 vzdáleností 11 a přebývá 6 vzdáleností 16. Obě poloviny se vzájemně statisticky významně neliší.

Tak bychom mohli podrobněji analyzovat i další vzdálenosti. To by však bylo nudné. Vážní zájemci najdou podrobnosti na mé stránce (mujweb.atlas.cz/veda/kunzmilan).

Dalším rozdělením je interpunkční znaménko tečka. Vzdálenosti mezi nimi odpovídají délce souvětí.

Vzdálenosti mezi tečkami. Negativně binomiální rozdělení.

Dolní

Horní

Pozorovaná

Očekávaná

 

limit

limit

frekvence

frequence

Chisquare

1

35.250

32

98.2

44.5925

35.250

69.500

56

78.2

6.2818

69.500

103.750

126

64.2

9.3820

103.750

138.000

29

52.8

0.7259

138.000

172.250

80

43.4

30.8804

172.250

206.500

75

35.7

43.3816

206.500

240.750

13

29.3

9.0786

240.750

275.000

30

24.1

1.4485

275.000

309.250

11

19.8

3.9122

309.250

343.500

21

16.3

1.3718

343.500

377.750

27

13.4

13.8755

377.750

412.000

4

11.0

4.4493

412.000

446.250

4

9.0

2.8067

446.250

480.500

7

7.4

.0245

480.500

514.750

3

6.1

1.5784

514.750

549.000

8

5.0

1.7739

549.000

617.500

8

7.5

.0317

617.500

686.000

2

5.1

1.8629

686

734

1

10.6

8.6593

Chisquare = 246.117 s 17 stupni volnosti. Hladina významnosti = 0.

Průměrná vzdálenost mezi tečkami je 174.62. To odpovídá čtyř veršům. Ostatní odchylky jsou u násobků délky veršů. Jednotlivé verše nejčastěji oddělují čárky:

Vzdálenosti mezi čárkami. Negativně binomiální rozdělení.

Dolní

Horní

Pozorovaná

Očekávaná

 

limit

limit

frekvence

frekvence

Chisquare

2

12.485

139

177.8

8.4545

12.485

23.970

364

328.5

3.8466

23.970

35.455

273

368.4

24.7261

35.455

46.939

500

289.7

152.7396

46.939

58.424

167

247.9

26.3870

58.424

69.909

123

169.1

12.5859

69.909

81.394

125

132.8

.4609

81.394

92.879

134

85.4

27.6319

92.879

104.364

50

64.3

3.1786

104.364

115.848

22

40.0

8.1144

115.848

127.333

30

29.4

.0134

127.333

138.818

30

17.9

8.1625

138.818

150.303

8

12.9

1.8772

150.303

161.788

5

7.8

.9872

161.788

173.273

7

5.5

.3881

173.273

268

10

9.6

.0179

Chisquare = 279.572 s 14 stupni volnosti. Hladina významnosti = 0.

Vzdálenostní analýza jednotlivých písmen dala velmi rozdílné výsledky, které jsou shrnuty v následující tabulce (hvězdičky označují příliš málo dat pro statistické testy, čísla jsou hodnoty chisquare).

Symbol

Malé

Velké

Obojí

a

4571, EX, 0

367, EX, 0.664

4938, EX, 0

b

1085, EX, 0.036

144, EX, 0.809

1229, WE, 0.087

c

1311, NB, 0.358

31, EX, 0.041

1342, EX, 0.522

d

2724, EX, 0

38, EX, 0.190

2762, NB, 0

e

9219, NB, 0

23, EX, 0.186

9242, NB, 0

f

1556, NB, 0.263

107, EX, 0.316

1663, NB, 0.993

g

1342, EX, 0.038

16*

1358, NB, 0.091

h

5002, EX, 0

65, EX, 0.867

5067, EX, 0

i

4232, EX, 0

443, LN, 0.883

4675, EX, 0

j

66, LN, 0.604

2*

68, LN, 0.604

k

547, EX, 0.011

6*

552, EX, 0.011

l

3033, EX, 0

58, EX, 0.237

3091, EX, 0

m

2004, WE, 0.671

90, WE, 0.098

2094, WE, 0.670

n

4445, NB, 0

73, EX, 0.826

4518, NB, 0

o

5579, NB, 0

127, LN, 0.685

5706, NB, 0

p

986, NB, 0

24*

1010, NB, 0

q

51, EX, 0.739

0

51, EX, 0.739

r

4165, NB, 0

17, EX, 0.573

4182, NB, 0

s

4846, NB, 0

141, LN, 0.672

4987, NB, 0

t

6754, NB, 0

459, EX, 0.197

7213, NB, 0

u

2299, EX, 0

21, EX, 0.785

2320, EX, 0,008

v

924, EX, 0.008

1*

925, EX, 0.008

w

1645, EX, 0

252, EX, 0.630

1897, EX, 0

x

60, EX, 0.926

0

60, EX, 0.926

y

1951, LN, 0

34, EX, 0.470

1985, EX, 0

z

20, EX, 0.931

0

20, EX, 0.931

Nejčastěji se uplatnilo exponenciální rozdělení, pak negativně binomiální rozdělení a logaritmicko normálního rozdělení. Weilbullovo rozdělení bylo nejlepší jen v jednom případě.

Věrnost korelace byla velmi rozdílná, vedle téměř dokonalé shody u souhlásky f s chi-square hodnotou 0.994 až k prakticky nulovým hodnotám u většiny samohlásek. Rozdíly mezi vypočtenými a pozorovanými počty byly největší u krátkých vzdáleností, kde se projevuje vliv používaných slov. Pokud se tyto vzdálenosti sloučily, dlouhé vzdálenosti se už daly lépe korelovat. Je zajímavé, že výsledky jsou závislé na tom, zda se jako bod useknutí vybere sudá nebo lichá vzdálenost.

Několik poznámek k jednotlivým písmenům. U velkého A se pozoroval velký rozdíl odpovídající délce verše (90 případů proti 75.8 očekávaným). To je stylistická schválnost, v sonetu číslo 66 téměř všechny verše začínají slovem And. Takové opakování u dvojice veršů se vyskytuje i jinde.

Velký počet samohlásek si vynutil rozdělení souboru na několik stejných částí (podle počtu vzdáleností). Při statistickém zpracování se ukázalo, že tyto části dávají statisticky významně odlišné výsledky (údaj v závorkách). V následujícím příkladě třetí část se liší od 1., 2. a 4. části, pak se liší dvě poslední části.

Písmeno (e + E)

 

2. část

3. část

4. část

5. část

1. část

0.7108

[0.0009]

0.7964

0.0625

2. část

 

[0.0028]

0.5228

0.1304

3. část

 

 

[0.0004]

0.1511

4. část

 

 

 

[0.0371]

Dalším studovaným textem je anglické Matoušovo evangelium v Bibli krále Jamese. To dalo trochu rozdílné výsledky. Autorovi nebo autorům šlo především o sdělení, formální stránce je věnována menší pozornost. Délku vět popisuje opět lognormální rozdělení s průměrem: 150,35 a standardní odchylkou 104,74.

Dolní

Horní

Pozorovaná

Očekávaná

 

limit

limit

frekvence

frekvence

Chisquare

6

52

43

40.5

.16051

53

104

133

140.4

.39469

105

156

115

114.2

.00549

157

208

74

68.5

.43763

209

260

44

38.5

.74861

261

311

18

21.6

.64710

312

263

14

12.5

.18733

364

415

7

7.3

.01400

416

519

5

7.1

.62719

520

1240

3

5.1

.85961

Chisquare = 4.08207 se 7 stupni volnosti. Hladina významnosti = 0.770277.

Další interpunkční znaménko středník je používáno podle Weilbullova rozdělení. V studované části textu je 179 středníků, chisquare = 7.291 se 7 stupni volnosti. Hladina významnosti = 0.399. Také závorky uvozující četné poznámky, jsou v textu rozděleny podle Weilbullova rozdělení.

Vzdálenosti mezi mezerníky opět určují rozdělení délky slov (počtu písmen ve slově):

Počet slov dané délky a typ rozdělení

Délka

Počet

Typ rozdělení, chisquare hodnota

1

431

WE, 0.057

2

2124

LN, 0, nad 7 = 0.523

3

3303

NB, 0, 2 části nad 5 0.245 –0.729

4

2989

NB, 3 části 0.003 – 0.447

5

1820

LN, 0

6

940

WE, 0.449

7

755

EX, 0.595

8

379

LN, 0.469

9

289

WE, 0.797

10

144

WE, 0.579

11

52

LN, 0.896

12

21

EX, 0.526

13

9

málo údajů

14

6

málo údajů

15

1

 

16

1

 

Slova délky 2 následují po sobě mnohem častěji, než by se mělo očekávat podle Weibullova rozdělení (234 výskytů proti 76.9 očekávaným). Tento rozdíl činí 87.8 % hodnoty chi-square. Také slova délky 5 příliš často jdou bezprostředně po sobě (206 výskytů proti 70.7 očekávaným), 71 % hodnoty chi-square. Podobně lze analýzovat delší slova.

Jednotlivá písmena dala opět velmi rozdílné výsledky, které jsou shrnuty v následující tabulce:

Symbol

Malé

Velké

Obojí

a

7457, LN, 0

525, LN, 0.127

7982, LN, 0

b

1299, WE, 0.347

211, LN, 0.499

1510, WE, 0.050

c

1583, EX, 0.780

42, EX, 0.533

1625, EX, 0.047

d

4644, NB, 0

18, EX, 0.006

4670, NB, 0

e

12732, LN, 0

50, EX, 0.008

12777, LN, 0

f

1993, EX, 0.229

118, LN, 0.650

2111, EX, 0.006

g

1487, EX, 0.009

118, WE, 0.731

1605, EX, 0.011

h

8251, LN, 0

105, LN, 0.416

8356, LN, 0

i

5561, LN, 0.137

284, WE, 0.438

5845 LN, 0

j

44, LN, 0.137

285, LN, 0.266

329, LN, 0.120

k

599, WE, 0.474

10*

609, WE, 0.696

l

3547, WE, 0

76, EX, 0.725

3623, WE, 0

m

2490, EX, 0

47, WE, 0.111

1349, WE, 0

n

6682, WE, LN, 0

53, WE, 0.060

6735, LN, 0

o

6768, EX, 0

39, WE, 0.245

6807, EX, 0

p

1135, WE, 0.103

75, LN, 0.627

1210, WE, 0.202

q

20

0

20, EX, 386

r

4600, NB, 0

17*

4617, NB, 0

s

5871, NB, 0

155, WE, 0.521

6027, NB, 0- 930

t

9265, NB, 0

290, WE, 0.122

9555, NB, 0

u

2676, EX, 0

6*

2682, EX, 0

v

951, LN, 0.545

23, EX, 0.384

974, LN, 0.547

w

2076, EX, 0

135, LN, 0.144

2211, EX, 0

x

41

0

41, EX, 0.446

y

2109, LN, 0.015

27, EX, 0.033

2136, LN, 0.020

z

35, EX, 0.038

12*

47, EX, 0.069

Weibullovo rozdělení je nejlepší u 17 písmen, lognormalní rozdělení koreluje 25 případů, exponenciální rozdělení je nejlepší v 18 provedených testech a negativně binomialní rozdělení je nejlepší u 8 písmen.

Souhlas vypočtených hodnot s experimentálními je většinou špatný. Opět korelují lépe konce rozdělení. Při rozdělení souboru na více částí se části opět statisticky lišily, ještě více než v případě Sonetů. V následující tabulce jsou porovnány počty statisticky odlišných výsledků v případě, že text byl rozdělen na 6 částí. V horní polovině tabulky je počet statisticky odlišných výsledků pro malá písmena, v dolní polovině tabulky je rozdíl statisticky odlišných výsledků pro malá i velká písmena. Sloučení někdy zhoršilo rozdíly. Největší rozdíl existuje mezi prvou a třetí částí textu.

Část

1

2

3

4

5

6

1

 

4

7

4

2

4

2

-1

 

2

1

2

3

3

2

2

 

4

6

2

4

1

-1

2

 

1

1

5

1

-1

0

0

 

3

6

1

1

-1

1

3

 

 

Generátor náhody

Pro porovnání výsledů lexikální analýzy by bylo dobré mít srovnávací materiál. Jednou možností by byl nějaký generátor náhodných čísel. Nevýhodou náhodných číselje nereprodukovatelnost. Jako výhodnější jsem považoval analýzu čísla e = 2,718281828.... Toto číslo je výsledek algoritmu sečítajícího inversní faktoriály

e = 1 + 1/1! + 1/2! + 1/3! + 1/4! ....

Jednotlivé číslice se v čísle e vyskytují náhodně (i když začátek čísla tomu neodpovídá). J. Ventluka publikoval číslo e vypočtené na 100000 decimálních míst. Rozdělení vzdálenosti mezi číslicemi je korelováno nejlépe negativně binomiálním rozdělením.

Zde je příklad korelace pro číslici 6 v dekadickém zápisu jako příklad špatné korelace:

Dolní

Horní

Pozorovaná

Očekávaná

 

limit

limit

frekvence

frekvence

Chisquare

1

2.516

235

220.0

1.0207

2.516

5.240

253

248.8

.0720

5.240

7.964

98

124.3

5.5791

7.964

10.689

132

140.6

.5246

10.689

13.413

101

99.8

.0138

13.413

16.137

86

70.9

3.2247

16.137

18.861

41

35.4

.8765

18.861

21.585

39

40.1

.0279

21.585

24.310

31

28.4

.2299

24.310

27.034

14

20.2

1.9010

27.034

29.758

6

10.1

1.6607

29.758

32.482

7

11.4

1.7067

32.482

35.206

13

8.1

2.9575

35.206

40.655

10

8.6

.2173

Chisquare = 20.4604 s 14 stupni volnosti. Hladina významnosti = 0.116281

Druhým extrémem je číslice 7:

Dolní

Horní

Pozorovaná

Očekávaná

 

limit

limit

frekvence

frekvence

Chisquare

pod

1.000

106

101.5

.1998214

1.000

4.097

247

247.1

.0000688

4.097

7.194

175

179.7

.1220749

7.194

10.290

128

130.6

.0535168

10.290

13.387

93

95.0

.0416361

13.387

16.484

70

69.1

.0126758

16.484

19.581

49

50.2

.0294113

19.581

22.677

46

36.5

2.4664300

22.677

25.774

28

26.5

.0796353

25.774

28.871

20

19.3

.0253087

28.871

31.968

13

14.0

.0761013

31.968

35.065

8

12.9

1.8878681

35.065

38.161

6

6.7

.0674840

38.161

44.355

8

8.4

.0169562

Chisquare = 5.11795 s 13 stupni volnosti. Hladina významnosti = 0.972504

Shoda je téměř dokonalá. Vysvětlení rozdílu je v dekadické bázi čísla. Pokud zapíšeme číslo třeba v dvojkové soustavě, dostaneme zcela jiné výsledky.

V následující tabulce je přehled výsledků od binární do dvanáctkové soustavy. Uvedeny jsou tři platné hodnoty chisquare:

Základ

0

1

2

3

4

5

6

7

8

9

10

11

2

113

047

 

 

 

 

 

 

 

 

 

 

3

874

572

212

 

 

 

 

 

 

 

 

 

4

440

102

244

693

 

 

 

 

 

 

 

 

5

799

517

273

835

837

 

 

 

 

 

 

 

6

992

763

337

818

354

682

 

 

 

 

 

 

7

587

590

468

445

763

440

282

 

 

 

 

 

8

125

378

837

457

126

138

766

772

 

 

 

 

9

298

755

846

465

043

236

468

760

958

 

 

 

10

736

650

818

831

417

156

116

972

793

895

 

 

11

568

959

892

263

438

667

601

078

337

554

660

 

12

256

318

682

781

657

236

110

346

781

960

318

828

Je zřejmé, že nejhorší korelace je téměř vždy uprostřed řady, případně se střídá v zápisu více horších a lepších výsledků.

Genetická informace

Zmínil jsem na počátku Mendela, který objevil základní zákon dědičnosti. Dnes vědci dokážou číst genetickou informaci. Základem je náhodný kopolymer čtyř chemických sloučenin ribonukleových kyselin (adenin A, guanin G, tymin T a cytosin T), známý jako DNA. Tento polymer je program pro buněčný komputer. Buňka dokáže DNA reprodukovat, vytvořit její kopii, případně použije DNA jako vzor pro syntézu proteinů. Trojice ribonukleových kyselin odpovídá vždy jedné amino kyselině nebo také interpukčnímu znaménku, které odděluje proteiny. Syntézy proteinů se však účastní jen 20 amino kyselin, proto je tripletový kód nadbytečný a některé amino kyseliny jsou kódované několika triplety.

Po tomto vulgárním úvodu si můžeme ukázat výsledky vzdálenostní analýzy jednoho obávaného lidského genu, označovaného v odborné literatuře jako fragment FRAXGE 52 seq. Počátek zápisu má tvar:

GAATTCAGGT AAGCTATCTT GAAAGGGGAA ATATCAAAAGCTAGAGATCA GAGTAAGGCT GAGACTCAGA GTCAAGTGGG GAAGACTAAG TTGCAGTATG TACTGGCAGT GAAGATAAGT Po převedení tripletů na 64 znaků ASCII se dostal zápis ve formě (tuto barvu si vybral program sám) =RBiPkpPXyIKw?G@vY=DLywgYNYAQEZmS[F=>gUOUYQQqqIjYikIarTRy=jPmAMVf\^{}<wM>LpaWUJDkUBz\^{}VVJ

\^{}jG

G

fd\^{}ABF

Tato tajná řeč lidského těla má své statistické vlastnosti. Každý znak odpovídá aminokyselině s výjimkou koncových symbolů (G, F, J), které oddělují proteiny, případně jejich zlomky.

Triplet

Frekvence

Rozpětí

EX

WE

LN

NP

Pozn

TTT: < Phe

184

1-458

0.000

0.238

0.092

0.000

TTC: = Phe

92

1-708

0.109

0.255

0.055

0.118

Fenylalanin

276

1-458

0.000

0.551

0.159

0.000

TCT: ' Ser

125

1-303

0.623

0.615

0.018

0.623

TCC: A Ser

114

1-258

0.623

0.622

0.006

0.657

TCA: B Ser

100

2-367

0.581

0.877

0.084

0.039

TCG: C Ser

35

3-853

0.935

0.428

0.469

0.029

AGT: h Ser

85

2-526

0.025

0.021

0.008

0.001

AGC: i Ser

115

1-286

0.273

0.170

0.273

0.271

l

Serin

574

1-97

0.089

0.220

0.000

0.131

TAT: D Tyr

65

2-568

0.105

0.071

0.043

0.000

l

TAC: E Tyr

62

2-555

0.257

0.324

0.026

0.164

p

Tyrosin

127

1-330

0.090

0.061

0.002

0.106

TAA: F ochre

78

1-545

0.229

0.069

0.069

0.254

TAG: G amber

77

1-417

0.192

0.132

0.007

0.254

p

TGT: H Cys

105

1-294

0.978

0.951

0.144

0.977

TGC: I Cys

110

1-415

0.104

0.184

0.054

0.088

p

Cystein

215

1-150

0.929

0.936

0.034

0.854

TGA: J opal

133

3-347

0.708

0.289

0.084

0.000

TGG: K Try

152

1-279

0.937

0.991

0.299

0.912

TTA: > Leu

81

1-611

0.797

0.925

0.187

0.640

TTG: ? Leu

125

1-284

0.813

0.609

0.432

0.712

 

CTT: L Leu

124

1-324

0.343

0.233

0.002

0.341

l

CTC: M Leu

155

1-347

0.389

0.666

0.015

0.282

CTA: N Leu

88

1-381

0.771

0.815

0.009

0.764

CTG: O Leu

163

1-344

0.227

0.255

0.268

0.144

Leucin

736

1-63

0.000

0.000

0.000

0.000

CCT: P Pro

160

1-213

0.644

0.497

0.035

0.634

p

CCC: Q Pro

133

1-439

0.247

0.842

0.247

0.664

CCA: R Pro

161

1-292

0.263

0.140

0.000

0.369

c

CCG: S Pro

57

2-569

0.437

0.602

0.109

0.000

Prolin

511

1-87

0.000

0.000

0.000

0.002

CAT: T His

107

1-263

0.568

0.586

0.138

0.450

l

CAC: U His

116

1-442

0.140

0.647

0.010

0.136

Histidin

223

1-150

0.602

0.538

0.006

0.382

CAA: V Gln

112

1-301

0.434

0.432

0.126

0.395

p

CAG: W Gln

166

1-242

0.213

0.103

0.002

0.177

p

Glutamin

278

1-150

0.602

0.538

0.006

0.382

CGT: X Arg

41

1-667

0.615

0.829

0.565

0.596

CGC: Y Arg

39

1-632

0.104

0.184

0.054

0.099

p

CGA: Z Arg

36

8-738

0.823

0.631

0.304

0.000

CGG: \"A Arg

54

1-552

0.761

0.854

0.026

0.730

AGA: j Arg

132

2-213

0.517

0.367

0.001

0.000

AGG: k Arg

184

1-188

0.247

0.182

0.001

0.233

Arginin

486

1-92

0.072

0.042

0.000

0.073

ATT: \"O Ile

93

2-421

0.002

0.001

0.000

0.000

p

ATC: \"U Ile

91

1-357

0.238

0.198

0.043

0.239

ATA: \^{} Ile

80

1-724

0.023

0.445

0.426

0.023

l

Ileucin

264

1-199

0.004

0.007

0.031

0.032

ATG: \_{} Met

68

1-487

0.443

0.293

0.129

0.444

ACT: ` Thr

102

1-246

0.863

0.574

0.038

0.899

ACC: a Thr

102

3-459

0.774

0.587

0.116

0.000

p

ACA: b Thr

101

1-241

0.885

0.826

0.226

0.868

 

ACG: c Thr

33

1-988

0.355

0.178

0.032

0.370

Threonin

338

1-129

0.284

0.286

0.001

0.103

 

AAT: d Asn

108

1-345

0.277

0.205

0.007

0.278

c

AAC: e Asn

78

1-456

0.001

0.001

0.013

0.001

 

Asparagin

186

1-250

0.948

0.942

0.048

0.759

 

AAA: f Lys

257

1-282

0.000

0.001

0.000

0.000

l, p

AAG: g Lys

109

1-338

0.012

0.168

0.004

0.012

 

Lysin

366

1-206

0.000

0.000

0.000

0.000

GGT: l Val

74

1-446

0.311

0.246

0.062

0.346

GTC: m Val

70

2-601

0.050

0.306

0.153

0.630

p

GTA: n Val

62

4-636

0.021

0.018

0.007

0.008

GTG: o Val

118

1-272

0.199

0.182

0.002

0.196

Valin

324

1-151

0.072

0.047

0.000

0.265

GCT: p Ala

126

1-377

0.544

0.411

0.202

0.570

GCC: q Ala

132

1-221

0.417

0.346

0.003

0.437

GCA: r Ala

110

1-318

0.272

0.586

0.377

0.272

GCG: s Ala

42

2-421

0.353

0.111

0.042

0.113

Alanin

410

1-142

0.265

0.408

0.011

0.073

l

GAT: t Asp

105

1-346

0.750

0.852

0.146

0.749

GAC: u Asp

61

2-634

0.464

0.301

0.003

0.062

p

Aspartová kyselina

166

1-207

0.312

0.312

0.009

0.598

p

GAA: v Glu

100

1-395

0.230

0.353

0.141

0.234

p

GAG: w Glu

179

1-240

0.313

0.852

0.045

0.229

l

Glutamová kyselina

279

1-180

0.006

0.101

0.003

0.001

l

GGT: x Gly

105

1-346

0.615

0.852

0.145

0.749

GGC: y Gly

158

2-209

0.192

0.145

0.006

0.000

p

GGA: z Gly

123

1-278

0.022

0.015

0.000

0.021

GGG: \"a Gly

144

1-245

0.086

0.854

0.093

0.730

l, p

Glycin

530

1-81

0.000

0.001

0.000

0.000

p= vrchol představující asi polovinu hodnoty chisquare

l= údolí představující asi polovinu hodnoty chisquare

c= kráter – údolí lemované na obou stranách vrcholy

Podrobná analýza by mohla být zajímavá pro odborníky. Vedle výtečných korelací se vyskytují zcela rozházené výsledky. Můžeme si všimnout třeba glycinu. Dva triplety korelují velmi dobře s Weilbullovým rozdělením, avšak souhrn se chová zcela nevypočítatelně.

Závěr

Když člověk začíná něco nového, nikdy určitě neví, zda se mu to podaří a zda výsledek bude k něčemu dobrý. To platí i pro analýzy vzdáleností mezi symboly. Zatím existuje příliš málo dat, aby bylo možné hodnotit užitečnost této metody.

U DNA máme možnost hledat Stvořitele (a ptát se, proč pustil do světa nepodařený výsledek, který vede k Downovu syndromu) nebo hledat možnosti, jak mohlo dojít ke vzniku DNA samovolně. Tři pozorovaná rozdělení, negativně binomiální, logaritmicko normální a exponenciálního rozdělení jsou známá v makromolekulární chemii polymerů. Je třeba známo, že logaritmicko normální rozdělení hmotnosti polymeru vzniká při polymeraci na částicových katalyzátorech. V přírodě by takovými katalyzátory mohly být silikáty.

U textů známe autora, i jeho záměry. Pokud sami píšeme, máme možnost si ověřovat celý proces. Přes to rozdělení vzniká zcela nevědomě, žádný autor si neřekne, rozmístím souhlásku f podle tohoto rozdělení.

Shakespeare zacházel s jazykem jinak než autor (přesněji řečeno překladatel, řeckž originál jsem nestudoval) Evangelia. Dbal nejen na to co chtěl vyjádřit, ale také na krásu svých veršů. To se projevilo ve výsledcích. Oba texty se v mnoha směrech liší. Formální statistickou analýzu by měla doplnit analýza obsahu, která by interpretovala pozorované rozdíly v jednotlivých částech obou děl, čím jsou způsobeny. V obou případech je rozdělení vzdáleností bezděčným výsledkem vědomého úsilí autorů.

Ve výtvarném umění je krása spojována se symetrií. Ostatně i poesie vyžaduje pravidelné střídání přízvučných a nepřízvučných slabik a rýmů.

Symetrie se dá měřit. Třeba lze zjistit počet prvků symetrie.Základní grupa symetrie Sn je spojena s permutacemi n různých symbolů, které mohou tvořit cykly různé délky. Permutace lze klasifikovat podle počtu cyklů a jejich délek.

Texty jsou v podstatě řady symbolů, které se mohou opakovat. Z dostatečně velké zásoby písmen lze vysázet všechny knihy, které kdy existovaly nebo budou existovat. Tyto texty lze oceňovat podle frekvence symbolů, což je prvá použitelná míra. Podle této míry není rozdíl mezi písmeny v tiskařské kase a ve vysázeném textu, frekvence symbolů se při sazbě nemění.

Druhou možnou mírou je stupeň ”promíchání” symbolů v textu. Takovou mírou jsou vzdálenosti mezi symboly.

Boltzmann spojil symetrii rozdělení energie s termodynamickou funkcí známou jako entropie. Podobná funkce se používá i v teorii informace. To už jsou však problémy, které by vyžadovaly samostatné pojednání.

Literatura

Uvádím náhodný výběr relevantní literatury v různých formátech:

P. Eisner, Rady Čechům, jak se hravě přiučiti češtině, Odeon, Praha 1992, s. 28.

J. O. Irwin, The Place of Mathematics in Medical and Biological Statistics, J. Royal Statistical Soc. A 126, 1963, Part 1, s. 1-45.

Haitun, S. D. (1982a) Stationary Scientometric Distributions I: Different Approximations. Scientometrics, , 4, 525.

Haitun, S. D. (1982b) Stationary Scientometric Distributions II: Non Gaussian Nature of Scientific Activities. Scientometrics, 4, 89 - 101.

Haitun, S. D. (1982c) Stationary Scientometric Distributions III: The Role of the Zipf Distribution. Scientometrics, 5, 375 - 395.

Harary, F.; Paper, H. H. (1957) Toward a General Calculus of Phonemic Distribution, Language, 33, 143-169.

Huen, Y. K. Representation of Biological Sequences Using Point Geometry Analysis, Visualizing Biol. Inf.; Pickover, C. A. Ed.; Word Scientific, Singapore, 1995, 165 - 182.

Irwing, J. O. The Place of Mathematics in Medical and Biological Statistics, {\it J. Royal. Statistical Soc. A, 1963, 126, 1 - 45.

Kunz, M. (1987) Time Spectra of Patent Information, Scientometrics, 11, 163 - 173.

Kunz, M. (1993) About metrics of bibliometrics, J. Chem. Inform. Comput. Sci., 33, 193 – 196.

M. Kunz, Matrix Theory of Information, Science and Science of Science, 3, 1994, č. 5, s. 141- 142.

Kunz, M. (1995) Plots against Information Laws, Science and Science of Science, 3, (1-2), 91 -- 97.

Kunz, M. ; Rádl, Z. (1998) Distribution of Distances in Information Strings, J. Chem. Inform. Comput. Sci., 38, 374-378.

A. A. Markov, Primer Statističeskogo isledovanija nad tekstom "Jevgenija Oněgina " illustrujuščij svjaz ispytanij v cep, Bull. Acad. Imp. Scien. de St. Pétersbourg. Ser VI, 7,1913, s. 153-162.

McGrath, W. E. Periodicity in Academic Library Circulation, a Spectral Analysis, in Kretschmer, H. Ed. Fourth International Conference on Bibliometrics, Informetrics and Scientometrics, September 11-15,1993, Berlin, Book of Abstracts, Part I.

Ninio, J.; Mizraji, E. Perceptible Features in Graphical Representations of Nucleic Acid Sequences, Visualizing Biol. Inf.; Pickover, C. A. Ed.; Word Scientific, Singapore, 1995, 33 - 42.

Schilling, M. F. Long Run Predictions, Math. Horizon., Spring 1994, 10 - 12.

Schmitt, A. O.; Ebeling, W.; Herzel, H. The Modular Structure of Informational Sequences, Biosystems, 1996, 37, 199 - 210.

Stanley, H. E.; Buldyrev, S. V.; Goldberger, A. L.; Havlin, S.; Mantegna, R. N.; Peng, C-K.; Simons, M. NATO ASI Ser., Ser. E, 1996, 322 (Physics of Biomaterials: Fluctuations, Selfassembly and Evolution) 219 - 234.

M. Těšitelová, Otázky lexikální statistiky, Academia, Praha 1974.

M. Těšitelová a kolektiv, O češtině v číslech, Academia, Praha 1987.

J. Ventluka, CHIP, CD-ROM, 1999.

O.U. Yule, The Statistical Sudy of Literary Vocabulary, University Press, Cambridge 1944.