Jízdní řády kvantované informace
Milan Kunz (
kunzmilan@seznam.cz)Trochu osobní úvod
Musel jsem trochu déle čekat v patentové kanceláři sídlící na Mendlově náměstí. Tak se mi dostala do rukou MF Dnes z 1. 12. 2001, kde v příloze Věda je článek J. Tučka “Kvantový chaos řídí i autobusy”, který popularizuje výsledky výzkumu docenta Šeby a jeho doktoranda Krbálka, kteří studovali intervaly mezi příjezdy jednotlivých autobusů na zastávky v Mexiku. Oba fyzikové také zjis
tili, “že podle stejných pravidel se shlukují i písmena v textu nebo noty v melodii. Znamená to, že například mezi dvěma písmenky “b” v psaném textu je nejčastěji stejný odstup a pak se plynule zmenšuje počet těchže písmenek, jejichž odstup je menší či větší.”Dále: “Zdá se, že tento způsob rozdělení prvků, dosud známý pouze v kvantové fyzice, je univerzální i v jiných náhodných systémech. Právě to je úplně nové světlo, které jsem do problematiky vnesli.”
Četl jsem článek se smíšenými pocity. Musel jsem uznat, že jsem také začínal podobně, také jsem si kdysi myslel, že jsem objevil Ameriku, ačkoliv existovaly celé vědní obory, které se podobnou problematikou zabývaly dávno přede mnou. Na druhé straně získávám spojence proti akademiku Zahradníkovi, který mne
označil za ignoranta, který se plete do věcí, kterým nerozumí, protože jsem se odvážil vyjádřit pochybnosti o interpretaci kvantové mechaniky. Zanechejme bolestínských úvah a vraťme se k problematice kvantového chaosu, ve které budou mít své místo jak patenty, tak Mendel, přesněji statistické vlastnosti DNA. Budeme se však zabývat statistickými vlastnostmi lidské řeči, ovšem jen její psané formy, protože mluvená forma asi má trochu jiné vlastnosti. Obecně se jedná o rozdělení informace. Nejprve trochu matematiky.Binomiální a negativně binomiální rozdělení
Při hodech mincí jsou prakticky možné dva výsledky, podle císařské tradice hlava nebo orel, při zápisu výhodně 0 a 1. Zanedbává se možnost, že mince zůstane stát na hraně, jako kdyby mince měla nulovou tloušťku, takže ji trochu idealizujeme. Představme si několik výsledků experimentu se stejným počtem 12 hodů:
000000111111
010101010101
001000111011.
Která řada je pravděpodobnější? Zásadně mají všechny tři stejnou pravděpodobnost, ale u poslední řady můžeme předpokládat, že dostaneme častěji podobný výsledek, kdy budeme muset ověřovat každou polohu, abychom řady nezaměnili. Prvé dvě řady jsou téměř jedinečné, existují jen jejich zrcadlové obrazy, u třetí řady existuje více podobných řad. Prvé dvě řady jsou u
spořádané, prvky se pravidelně opakují, třetí řada je zamíchána způsobem, který můžeme označit za opravdu náhodný. Probereme si všechny možné výsledy série 4 hodů
| 0000 |
0001 |
0011 |
0111 |
1111 |
|
|
0010 |
0101 |
1011 |
|
|
|
0100 |
1001 |
1101 |
|
|
|
1000 |
1010 |
1110 |
|
|
|
|
0110 |
|
|
|
|
| 1100 |
|
|
Součet |
1 |
4 |
6 |
4 |
1 |
Takové tabulky se dají sestavovat od jednoho do nekonečného počtu hodů. Počty výsledků tvoří Pascalův trojúhelník. Tady je sestaven pro výsledek 1, stejná tabulka je i pro výsledek 0, trojúhelník je symetrický. Všimněte si, že součty jsou mocniny čísla dvě. Tabulka je doplněna i o nultou mocninu, což je jedna a případ žádného hodu, kdy nemůže jednotka zásadně padnout, protože se hod vůbec neuskuteční.
Počet jednotek(m) hodů (n) |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
Součet výsledků |
0 | 1 |
|
|
|
|
|
| 1 |
1 | 1 | 1 |
|
|
|
|
| 2 |
2 | 1 | 2 | 1 |
|
|
|
|
4 |
3 | 1 | 3 | 3 | 1 |
|
|
|
8 |
4 | 1 | 4 | 6 | 4 | 1 |
|
| 16 |
5 | 1 | 5 | 10 | 10 | 5 | 1 |
|
32 |
6 | 1 | 6 | 15 | 20 | 15 | 6 | 1 | 64 |
Pascalův trojúhelník je základem binomiálního rozdělení, které přiřazuje určitou hodnotu každému poměru dvou prvků. Hodnoty v tabulce lze získat buď postupným sčítáním dvou hodnot v předcházejícím řádku, nebo přímo pomocí binomického koeficientu, což je podíl faktoriálů n!/m!(n-m)!. Největší počet možností je pro řady s poměrem obou výsledků
1:1. Mluvíme tu o pravděpodobnosti a náhodě, čím by byl poměr posunut vzdálenější, tím by byl méně pravděpodobný.S počtem hodů bychom mohli jít do nekonečna. V tom případě se stávají absolutní počty možných výsledků nesmyslně velké a pohodlněji počítáme s relativními čísly, poměry počtu příznivých případů ke všem možným. Místo binomického rozdělení dostaneme normální rozdělení, které odvodil Gauss, když se zabýval chybami astronomických měření.
My jsme však začali autobusy, tak se držme tohoto příkladu. Prázdná zastávka, to je zřejmě 0, autobus na zastávce 1. Pokud budeme zaznamenávat v pravidelných intervalech, výsledkem bude binární sekvence. Nejprve si zanalyzujeme model. V příkladu
000000111111
010101010101
001000111011
čekáme v prvém případě na prvý autobus 7 intervalů, pak vždy jen 1 interval, v druhém případě je přestávka vždy 2 intervaly, autobusy jezdí zcela pravidelně, a v třetím případě čekáme postupně 3, 4, 1, 1, 2, 1 intervaly.
Pokud si dáme práci a spočítáme vzdálenosti mezi stejnými výsledky všech binárních řadách, dostaneme tabulku podobnou Pascalu trojúhelníku. Tato tabulka je základem negativně binomiálního rozdělení, což je jakási inversní forma binomiálního rozdělení.
Negativně binomiální rozdělení bylo ještě nedávno matematickou kuriositou, protože výpočty jeho parametrů bez použití počítače jsou velmi obtížné. Obvyklé charakteristiky, jako jsou průměr a rozptyl mají jen malou vypovídací hodnotu. Teď sice počítač dá výsledky, avšak jejich interpretace je stále dosti těžká. Nejsnadněji
se dají posoudit rozdíly mezi teoretickým rozdělením a experimentálními výsledky.Teď si představme, že místo mince budeme házet kostkou. Ta může mít tvar krychle, se stěnami označenými 0, 1, 2, 3, 4, 5 (místo obvyklých 1, 2, 3, 4, 5 a 6 teček) nebo pravidelného čtyřstěnu se stěnami označenými 0, 1, 2, 3. Obecně si můžeme představit jako kostku pravidelný n-stěn, případně hranol, který se může jen kutálet. Výsledky postupných hodů analogicky s binomiálním rozdělením popisuje n-nomiální rozdělení, obecně po
lynomiální rozdělení, kde počet prvků určuje polynomický koeficient, což je analogie binomického koeficientu. Podrobnosti nás zde nemusí zajímat. Jen si musíme uvědomit, že analogicky s negativně binomiálním rozdělením by měla existovat negativně polynomiální rozdělení. Tato rozdělení však nejsou, pokud vím, prakticky rozpracována, aby se podle nich dalo jednoduše počítat.Možná to ani není potřeba. Podle mých zkušeností negativně polynomiální rozdělení lze modelovat sérií negativně binomiálních rozdělení.
Představte si, že v tomto textu studujeme vzdálenosti mezi písmeny a. Všechna ostatní písmena (případně i interpunkci) nahradíme jedním neutrálním znakem. Dostaneme tak binomiální rozdělení, které bychom mohli modelovat jakousi falešnou mincí, u které jedna strana bude pravidelně padat mnohem častěji než druhá. Takovou minci bychom si mohli představit jako kuličku s vypilovanou ploškou, kde poměry ploch by odpovídaly poměru četnosti daného znaku ke znakům ostatním.
Po prostudování vlastností jednoho rozdělení postoupíme k dalšímu písmenu a dostaneme tak soubor pro všechna písmena abecedy. Tady existuje ještě možnost rozlišovat malá a velká písmena. Než k přistoupíme k praktickým příkladům, musíme ještě absolvovat historický úvod.
Krátká historie statistiky informace
Musím se přiznat, že jsem zaskočil sám sebe otázkou, kde začít s historií problému statistických studií informace. Prehistorii problému jsem nestudoval, bývá spojována s počítáním slov v Bibli. Osobně bych přiznal prvenství Gutenbergovi, který asi brzo zjistil při sazbě Bible, že některých liter potřebuje mít v tiskařské kase mnohem více než jiných, protože se často v textu opakují. Ani nevím, kdo určil obecně přijímané frekvence písmen v jednotlivých jazycích.
Prvý kořen, který se však téměř úplně odlomil, byl ruský matematik Markov (toho by fyzikové měli znát. Z jeho zájmu, podle jakých pravidel se střídají hlásky se samohláskami v Puškinově Evženu Oněginovi vyrostl samostatný obor matematiky.
Druhý kořen stromu poznání tvoří praktický Američan Zipf. Ten se začal začátkem minulého století zajímat o frekvenci jednotlivých slov v angličtině, aby naučil přistěhovalce nejprve nejčastěji se vyskytující slova, s rozumným předpokladem, že slovům, která uslyší za život jen jednou, rozumět nemusí a je
tedy zbytečné ztrácet čas s jejich memorováním. Zipf zjistil, že když vynese logaritmy frekvence nejčastěji se vyskytujících slov proti logaritmu jejich pořadí, tvoří body na počátku grafu zcela přijatelnou přímku. Konec představovaný řídce se vyskytujícími slovy potom začne od přímky odpadat. Zipf použil pořádkovou statistiku.Třetím zdrojem je další Američan Lotka, který si dal práci se statistikou produktivity autorů v desetiletém indexu Chemical Abstracts, kolik kdo má publikací. Našel rozdělení podobné Zipfovu, jenomže pozorovanému z opačného konce. Logaritmus počtu autorů s n publikacemi koreloval proti logaritmu počtu jejich publikací. Na 10000 autorů s 1 publikací připadne přibližně 10 autorů s 10 publikacemi a jen 1 autor se 100 publikacemi.
Při obvyklé praxi univerzitní profesor má několik doktorantů, kterým zadá téma, na kterém pracují a výsledek práce potom společně publikují. Absolventi pak odcházejí učit na střední školy, do úřadů a průmyslu a končí s vědeckou prací, případně musí jako asistent
i pracovat sami a mají jen málo vlastních publikací.Kosý tvar rozdělení produktivity autorů byl charakterizován pesimistickým modelem podle apoštola Matouše: “Tomu kdo má, bude přidáno a tomu kdo nemá, bude vzato i to, co má”. Zakladatel scientometrie (nepleťte si to se scientologií) Solla de Price se pokusil popsat tento tvar rozdělení optimistickým modelem podle zásady: “Úspěch budí úspěch”. Nejtěžší podle něj je vždy prvý krok, další kroky a tedy i publikace jsou stále snazší. V určitém smyslu měl pravd
u, protože prestižním autorům projde leccos, co by neprošlo nýmandům, avšak oba modely jsou rovnocenné.Měl bych zmínit i nositele Nobelovy ceny za fyziku Shockleyho, který se zajímal o počty publikací svých podřízených a chtěl je podle toho i odměňovat. Ten použil jednoduše logaritmicko normální rozdělení. Když jsme u toho odměňování, rozdělení bohatství mezi lidmi, které studoval už v předminulém století Pareto, je stejného typu.
A pak tu byl anglický statistik Yule. Ten si krátil nejtěžší chvíle německých náletů na Anglii počítáním slov ve svých oblíbených knihách. A také v projevech státníků, včetně Hitlera, zda se dají zjistit statistické rozdíly v používání slov. Ke svému překvapení našel rozdělení podobné Lotkovu. Nejvíce je slov, které se opakují pou
ze jednou. Slova vyskytující se v textu pouze jednou, jsou slova vzácná a neotřelá. Jejich velký počet je důkazem stylistické obratnosti a pečlivosti autora.Tady by historický úvod mohl končit, protože pak se problému začíná věnovat příliš mnoho vědců. Ještě bych ještě zmínil lingvistku Těšitelovou, která pečlivě počítala slova v knihách českých autorů, a zběhlého fyzika Vlachého, který s neobyčejnou pílí opakoval lotkovské studie na všech souborech,které mu přišly pod ruku.
Já jsem se k problematice dostal v rámci normalizace. Z laboratoře jsem byl vykopnut a skončil jsem v patentovém oddělení. Měl jsem za úkol rešerše. V rámci předstírání činnosti jsem si dal za cíl zjistit, jak patentuje konkurence. Vedoucí firmy měly ročně desítky patentů, což svědčilo o tom, že soustřeďují na úkoly mnohem více sil než bylo zvykem u nás. Tomu odpovídaly i výsledky a hlavně praktické realizace výzkumu.
Rešerši jsem chtěl publikovat a tak jsem ji vylepšil samorostlou teorií. Tou jsem si zamotal hlavu sám sobě. Spojil jsem rozdělení patentů s entropií a později se symetrií. Zkoušel jsem korelovat své pomocí různých rozdělení, i dvojitou logaritmickou transformaci, ale nejlépe se mi líbilo lognormální rozdělení, případně vylepšené substitucí, která modifikovala počátek rozdělení.
Kolega Vlachý si všimnul mé české publikace a doporučil mi publikovat v časopise Scientometrics. Tam tehdy uplatnil sérii článků Rus Haitun, který s apoštolským zanícením zdůrazňoval specifičnost extrémně kosých rozdělení jako zvláštnost informace. Tak jsem se pustil do polemiky, protože třeba rozdělení chemických prvků ve Vesmíru, nebo vesmírných těles je velmi kosé.
Existují celé teorie týkající se Zipfova a Lotkova rozdělení, jejich matematických vlastností. Obě rozdělení se zpracovávaly zcela odděleně, ačkoliv se jedná o popis dvou konců jednoho jevu. Tak jsem ukázal, že lze Lotkovy výsledky korelovat hlava proti konci (ocasu), jako když se had zakousne do svého ocasu. Dostanou se většinou přijatelné přímky.
Rozdělení informace je deformované. Jeho tvar je useknutý téměř u poloviny předpokládaného zvonového tvaru. Chybějící část lze vysvětlovat kvantováním, bylo by třeba možné ji přičítat nezjištěnému počtu neúplných publikací, které se vůbec v tisku neobjevily. Deformovaný tvar působí někdy pot
íže při statistických výpočtech, některé běžně používané algoritmy vedou k chybným závěrům.Já jsem měl v patentové rešerši vedle počtů přihlášek také údaje o datech jejich podání. Když se data významných přihlašovatelů s mnoha desítkami přihlášek vynesla na časovou osu, podobala se čárovým spektrům chemických sloučenin. Data nebyla rozdělena rovnoměrně, ale vyskytovala se ve shlucích, v jakých jezdí autobusy. Tak jsem dostal nápad studovat intervaly mezi jednotlivými přihláškami.
Už tehdy jsem si uvědomoval možnosti podobných studií pro jiné řady, jako jsou texty, iracionální čísla nebo genetická informace. To však muselo počkat, až jsem byl v penzi a měl doma počítač.
Kolega RNDr Z. Rádl CSc mi vypracoval programy, které umožňují analýzovat vzdálenosti mezi znaky v ASCII souborech různých typů. Nyní stačí vzít text vhodné délky, zadat symbol, a dostane se výpis vzdáleností mezi daným symbolem, který lze studovat pomocí vhodného programu, třeba lze získat jeho charakteristiku pomocí Fourierovy analýzy.
Někt
eré praktické výsledkyLidská řeč je fascinující fenomén. Vyjma několika řídkých výjimek většinu z nás stojí mnoho úsilí vyjadřovat se jasně a zřetelně, neotřele, bez opakování. Zásady dobrého stylu vyžadují, abychom neopakovali slova příliš často. Na druhé straně, když o něčem mluvíme, potom je nutné klíčová slova opakovat, aby bylo zřejmé, o čem je řeč. V některých případech se může stát opakování celých frází stylistickým prostředkem, třeba refrény v písních a rýmy v poesii.
V některých slovech se hlásky opakují, příkladem může být slovo “plavala”. V češtině se prakticky nevyskytují dvě stejné hlásky po sobě, pokud vyloučíme spojení typu “brašna a aktovka”, zatím co v psané angličtině jsou některá zdvojená písmena (ll, nn) poměrně častá.
Předem by bylo dobré říci, že distribuce rozdělení vzdáleností lze popsat prakticky pomocí čtyř rozdělení: negativně binomiálního rozdělení (zkratka NB), logaritmicko normálního rozdělení (LN), exponenciálního rozdělení (EX) a Weilbullova rozdělení (WE). V některých př
ípadech lze použít současně více rozdělení s téměř stejným výsledkem, případně korelace je přijatelná pouze pro konce rozdělení nad určitou vzdálenost, kdy se přestává uplatňovat vliv jednotlivých slov.Začněme u klasiky. Na internetu je k dispozici celé Shakespearovo dílo, z kterého jsem si vybral Sonety. Když jsem nahradil čísla sonetů jednotným znakem a studoval rozdělení tohoto znaku, dostal jsem délku sonetů vyjádřenou počtem znaků včetně interpunkčních znamének a nadbytečných úhozů.
Délka sonetů. Chis
quare test.Normální rozdělení. Průměr: 649.47, standardní deviace 22.1.
Dolní | Horní |
Pozorovaná | Očekávaná | |
limit | limit | frekvence | frekvence |
Chisquare |
546 | 611.818 |
4 |
6.8 |
1.1575 |
611.818 | 620.909 |
8 |
8.3 |
.0107 |
620.909 | 630.000 |
11 |
14.0 | .6496 |
630.000 | 639.091 |
23 |
20.0 | .4373 |
639.091 | 648.182 |
26 |
24.2 | .1268 |
648.182 | 657.273 |
32 |
24.8 | 2.0709 |
657.273 | 666.364 |
16 |
21.5 | 1.4148 |
666.364 | 675.455 |
20 |
15.8 | 1.1271 |
675.455 | 684.545 |
8 |
9.8 |
.3296 |
684.545 | 649 | 6 | 8.7 | .8193 |
Chisquare = 8.14362 se 7 stupni volnosti. Hladina významnosti = 0.320101. (Omlouvám se za desetinné tečky, jsou podle americké praxe.)
Rozdělení je lehce bimodální, mezi dvěma vrcholy existuje údolí, sonetů dlouhých asi 660 znaků je méně a dlouhých asi 670 znaků je více, než by se mělo v ideálním případě očekávat. Rozdíl odpovídá asi dvěma slovům.
Vzdálenosti mezi mezerníky určují rozdělení délky slov (počet písmen ve slově)
Počet slov dané délky a typ rozdělení
Délka | Počet |
Typ rozdělení, chisquare hodnota |
1 |
547 |
LN, 0.253 |
2 | 2870 | NB, 0, nad 8 = 0.521 |
3 | 3212 | NB, 0, nad 16 = 0.208 |
4 | 4012 | NB, 0.091 + 0.873 |
5 | 2714 | NB, 0, nad 11 = 0.208 |
6 | 1744 | EX, 0.069 |
7 | 1073 | WE, 0.208 |
8 | 692 | NB, 0.415 |
9 | 394 | WE, 0.305 |
10 | 190 | NB, 0.540 |
11 | 69 | WE, 0.670 |
12 | 31 | EX, 0.591 |
13 | 15 | málo údajů |
14 | 13 | málo údajů |
15 | 2 | m álo údajů |
16 | 1 |
|
17 | 1 |
|
18 | 1 |
|
Nejčastěji se vyskytujícící slova se vyskytují v textu podle negativně binomiálního rozdělení, jako kdyby autor si házel kostkou. Pokud začneme podrobnější rozbor výsledků jednohláskovými slovy, korelace se zdá špatná. Avšak 45,9 % hodnoty chisquare tvoří rozdíl 9 slov (21 proti 12 očekávaným) ve vzdálenostech 51-60, lehce větších než je průměrná délka verše. podobné odchylky jsou i u dalších slov.
Slov délky 4 bylo příliš mnoho, program pro vyhodnocení selhal, takže jsem tato slova musel pro vyhodnocení rozdělit na dvě části. Zde jsou:
Dolní | Horní |
Pozorovaná | Očekávaná | |
limit | limit |
frekvence | frequence |
Chisquare |
1 | 1.500 |
476 |
464.1 | .3045 |
1.500 | 2.500 |
349 |
356.9 | .1770 |
2.500 | 3.500 |
284 |
274.5 | .3268 |
3.500 | 4.500 |
207 |
211.1 | .0811 |
4.500 | 5.500 |
172 |
162.4 | .5691 |
5.500 | 6.500 |
131 |
124.9 | .2988 |
6.500 | 7.500 |
90 |
96.1 | .3815 |
7.500 | 8.500 |
68 |
73.9 | .4672 |
8.500 | 9.500 |
54 |
56.8 | .1397 |
9.500 | 10.500 |
32 |
43.7 | 3.1314 |
10.500 | 11.500 |
17 |
33.6 | 8.2070 |
11.500 | 12.500 |
22 |
25.8 | .5728 |
12.500 | 13.500 |
24 |
19.9 | .8541 |
13.500 | 14.500 |
25 |
15.3 | 6.1677 |
14.500 | 15.500 |
13 |
11.8 | .1310 |
15.500 | 16.500 |
11 |
9.0 |
.4232 |
16.500 |
17.500 | 4 | 7.0 | 1.2559 |
17.500 | 18.500 |
8 |
5.3 |
1.3132 |
18.500 | 20.500 |
10 |
7.3 |
1.0175 |
20.500 |
38 |
13 |
10.5 | .5743 |
Chisquare = 26.3937 s 18 stupni volnosti. Hladina významnosti = 0.09109.
Chisquare hodnota je dost nízká. Když si však prohlédneme tabulku, zjistíme, že je tu jen 49 vzdáleností 10 a 11 mezi slovy se čtyřmi písmeny proti 77.3 očekávaným a 25 vzdáleností 14 mezi slovy se čtyřmi písmeny proti 15.8 očekávaným. Tyto dva rozdíly tvoří jen jedno procento všech vzdáleností, avšak 66.3 % chisquare hodnoty.
Druhá polovina těchto slov dala jiný výsledek:
Dolní | Horní |
Pozorovaná | Očekávaná | |
limit | limit | frekvence | frequence |
Chisquare |
níže | 1.500 |
445 |
446.8 | .00743 |
1.500 | 2.500 |
350 |
347.1 | .02428 |
2.500 | 3.500 |
266 |
269.6 | .04885 |
3.500 | 4.500 |
224 |
209.5 | 1.01059 |
4.500 | 5.500 |
161 |
162.7 | .01785 |
5.500 | 6.500 |
127 |
126.4 | .00294 |
6.500 | 7.500 |
88 |
98.2 | 1.05587 |
7.500 | 8.500 |
74 |
76.3 | .06749 |
8.500 | 9.500 |
65 |
59.2 | .55874 |
9.500 | 10.500 |
47 |
46.0 | .02073 |
10.500 | 11.500 |
25 |
35.8 | 3.23328 |
11.500 | 12.500 |
31 |
27.8 | .37515 |
12.500 | 13.500 |
23 |
21.6 | .09429 |
13.500 | 14.500 |
16 |
16.8 | .03435 |
14.500 | 15.500 |
14 |
13.0 | .07401 |
15.500 | 16.500 |
16 |
10.1 | 3.42717 |
16.500 | 17.500 |
5 |
7.9 |
1.03815 |
17.500 |
18.500 | 4 | 6.1 | .72436 |
18.500 | 20.500 |
8 |
8.4 |
.02124 |
20.500 | 22.500 |
4 |
5.1 |
.23064 |
22.500 |
44 |
9 |
7.7 |
.20717 |
Chisquare = 12.2746 s 19 stupni volnosti. Hladina významnosti = 0.873556.
Souhlas je velmi dobrý. Opět lze zjistit, že chybí 9 vzdáleností 11 a přebývá 6 vzdáleností 16. Obě poloviny se vzájemně statisticky významně nel
iší.Tak bychom mohli podrobněji analyzovat i další vzdálenosti. To by však bylo nudné. Vážní zájemci najdou podrobnosti na mé stránce (
mujweb.atlas.cz/veda/kunzmilan).Dalším rozdělením je interpunkční znaménko tečka. Vzdálenosti mezi nimi odpovídají délce souvětí.
Vzdálenosti mezi tečkami. Negativně binomiální rozdělení.
Dolní | Horní |
Pozorovaná | Očekávaná | |
limit | limit |
frekvence | frequence |
Chisquare |
1 | 35.250 |
32 |
98.2 | 44.5925 |
35.250 | 69.500 |
56 |
78.2 | 6.2818 |
69.500 | 103.750 |
126 |
64.2 | 9.3820 |
103.750 | 138.000 |
29 |
52.8 | 0.7259 |
138.000 | 172.250 |
80 |
43.4 | 30.8804 |
172.250 | 206.500 |
75 |
35.7 | 43.3816 |
206.500 | 240.750 |
13 |
29.3 | 9.0786 |
240.750 | 275.000 |
30 |
24.1 | 1.4485 |
275.000 | 309.250 |
11 |
19.8 | 3.9122 |
309.250 | 343.500 |
21 |
16.3 | 1.3718 |
343.500 | 377.750 |
27 |
13.4 | 13.8755 |
377.750 | 412.000 |
4 |
11.0 | 4.4493 |
412.000 | 446.250 |
4 |
9.0 |
2.8067 |
446.250 |
480.500 | 7 | 7.4 | .0245 |
480.500 |
514.750 | 3 | 6.1 | 1.5784 |
514.750 | 549.000 |
8 |
5.0 |
1.7739 |
549.000 |
617.500 | 8 | 7.5 | .0317 |
617.500 |
686.000 | 2 | 5.1 | 1.8629 |
686 | 734 | 1 | 10.6 | 8.6593 |
Chisquare = 246.117 s 17 stupni volnosti. Hladina významnosti = 0.
Průměrná vzdálenost mezi tečkami je 174.62. To odpovídá čtyř veršům. Ostatní odchylky jsou u násobků délky veršů. Jednotlivé verše nejčastěji oddělují čárky:
Vzdálenosti mezi čárkami. Negativně binomiální rozdělení.
Dolní | Horní |
Pozorovaná | Očekávaná | |
limit | limit | frekvence | frekvence |
Chisquare |
2 | 12.485 |
139 |
177.8 | 8.4545 |
12.485 | 23.970 |
364 |
328.5 | 3.8466 |
23.970 | 35.455 |
273 |
368.4 | 24.7261 |
35.455 | 46.939 |
500 |
289.7 | 152.7396 |
46.939 | 58.424 |
167 |
247.9 | 26.3870 |
58.424 | 69.909 |
123 |
169.1 | 12.5859 |
69.909 | 81.394 |
125 |
132.8 | .4609 |
81.394 | 92.879 |
134 |
85.4 | 27.6319 |
92.879 | 104.364 |
50 |
64.3 | 3.1786 |
104.364 | 115.848 |
22 |
40.0 | 8.1144 |
115.848 | 127.333 |
30 |
29.4 | .0134 |
127.333 | 138.818 |
30 |
17.9 | 8.1625 |
138.818 | 150.303 |
8 |
12.9 | 1.8772 |
150.303 | 161.788 |
5 |
7.8 |
.9872 |
161.788 |
173.273 | 7 | 5.5 | .3881 |
173.273 |
268 |
10 |
9.6 |
.0179 |
Chisquare = 279.572 s 14 stupni volnosti. Hladina významnosti = 0.
Vzdálenostní analýza jednotlivých písmen dala velmi rozdílné výsledky, které jsou shrnuty v následující tabulce (hvězdičky označují příliš málo dat pro statistické testy, čísla jsou hodnoty chisquare).
Symbol | Malé | Velké |
Obojí |
a | 4571, EX, 0 | 367, EX, 0.664 | 4938, EX, 0 |
b | 1085, EX, 0.036 | 144, EX, 0.809 | 1229, WE, 0.087 |
c | 1311, NB, 0.358 | 31, EX, 0.041 | 1342, EX, 0.522 |
d | 2724, EX, 0 | 38, EX, 0.190 | 2762, NB, 0 |
e | 9219, NB, 0 | 23, EX, 0.186 | 9242, NB, 0 |
f | 1556, NB, 0.263 | 107, EX, 0.316 | 1663, NB, 0.993 |
g | 1342, EX, 0.038 | 16* | 1358, NB, 0.091 |
h | 5002, EX, 0 | 65, EX, 0.867 | 5067, EX, 0 |
i | 4232, EX, 0 | 443, LN, 0.883 | 4675, EX, 0 |
j | 66, LN, 0.604 | 2* | 68, LN, 0.604 |
k | 547, EX, 0.011 | 6* | 552, EX, 0.011 |
l | 3033, EX, 0 | 58, EX, 0.237 | 3091, EX, 0 |
m | 2004, WE, 0.671 | 90, WE, 0.098 | 2094, WE, 0.670 |
n | 4445, NB, 0 | 73, EX, 0.826 | 4518, NB, 0 |
o | 5579, NB, 0 | 127, LN, 0.685 | 5706, NB, 0 |
p | 986, NB, 0 |
24* |
1010, NB, 0 |
q | 51, EX, 0.739 | 0 | 51, EX, 0.739 |
r | 4165, NB, 0 | 17, EX, 0.573 | 4182, NB, 0 |
s | 4846, NB, 0 | 141, LN, 0.672 | 4987, NB, 0 |
t | 6754, NB, 0 | 459, EX, 0.197 | 7213, NB, 0 |
u | 2299, EX, 0 | 21, EX, 0.785 | 2320, EX, 0,008 |
v | 924, EX, 0.008 | 1* | 925, EX, 0.008 |
w | 1645, EX, 0 | 252, EX, 0.630 | 1897, EX, 0 |
x | 60, EX, 0.926 | 0 | 60, EX, 0.926 |
y | 1951, LN, 0 | 34, EX, 0.470 | 1985, EX, 0 |
z | 20, EX, 0.931 | 0 | 20, EX, 0.931 |
Nejčastěji se uplatnilo exponenciální rozdělení, pak negativně binomiální rozdělení a logaritmicko normálního rozdělení. Weilbullovo rozdělení bylo nejlepší jen v jednom případě.
Věrnost korelace byla velmi rozdílná, vedle téměř dokonalé shody u souhlásky f s chi-square hodnotou 0.994 až k prakticky nulovým hodnotám u většiny samohlásek. Rozdíly mezi vypočtenými a pozorovanými počty byly největší u krátkých vzdáleností, kde se projevuje vliv používaných slov. Pokud se tyto vzdálenosti sloučily, dlouhé vzd
álenosti se už daly lépe korelovat. Je zajímavé, že výsledky jsou závislé na tom, zda se jako bod useknutí vybere sudá nebo lichá vzdálenost.Několik poznámek k jednotlivým písmenům. U velkého A se pozoroval velký rozdíl odpovídající délce verše (90 případů proti 75.8 očekávaným). To je stylistická schválnost, v sonetu číslo 66 téměř všechny verše začínají slovem And. Takové opakování u dvojice veršů se vyskytuje i jinde.
Velký počet samohlásek si vynutil rozdělení souboru na několik stejných částí (podle počtu vzdáleností). Při statistickém zpracování se ukázalo, že tyto části dávají statisticky významně odlišné výsledky (údaj v závorkách). V následujícím příkladě třetí část se liší od 1., 2. a 4. části, pak se liší dvě poslední části.
Písmeno (e + E)
|
2. část | 3. část | 4. část |
5. část |
1. část | 0.7108 |
[0.0009] |
0.7964 | 0.0625 |
2. část |
|
[0.0028] | 0.5228 | 0.1304 |
3. část |
|
| [0.0004] | 0.1511 |
4. část |
|
|
| [0.0371] |
Dalším studovaným textem je anglické Matoušovo evangelium v Bibli krále Jamese. To dalo trochu rozdílné výsledky. Autorovi nebo autorům šlo především o sdělení, formální stránce je věnována menší pozornost. Délku vět popisuje opět lognormální rozdělení s průměrem: 150,35 a standardní odchylkou 104,74.
Dolní | Horní |
Pozorovaná | Očekávaná | |
limit | limit |
frekvence | frekvence |
Chisquare |
6 | 52 | 43 | 40.5 |
.16051 |
53 | 104 | 133 | 140.4 | .39469 |
105 | 156 | 115 | 114.2 |
.00549 |
157 | 208 | 74 | 68.5 | .43763 |
209 | 260 | 44 | 38.5 | .74861 |
261 | 311 | 18 | 21.6 | .64710 |
312 | 263 | 14 | 12.5 | .18733 |
364 | 415 | 7 | 7.3 | .01400 |
416 | 519 | 5 | 7.1 | .62719 |
520 | 1240 | 3 | 5.1 | .85961 |
Chisquare = 4.08207 se 7 stupni volnosti. Hladina významnosti = 0.770277.
Další interpunkční znaménko středník je používáno podle Weilbullova rozdělení. V studované části textu je 179 středníků, chisquare = 7.291 se 7 stupni volnosti. Hladina významnosti = 0.399. Také závorky uvozující četné poznámky, jsou v textu rozděleny podle Weilbullova rozdělení.
Vzdálenosti mezi mezerníky opět určují rozdělení délky slov (počtu písmen ve slově):
Počet slov dané délky a typ rozdělení
Délka | Počet |
Typ rozdělení, chisquare hodnota |
1 | 431 | WE, 0.057 |
2 | 2124 | LN, 0, nad 7 = 0.523 |
3 | 3303 | NB, 0, 2 části nad 5 0.245 –0.729 |
4 | 2989 | NB, 3 části 0.003 – 0.447 |
5 | 1820 | LN, 0 |
6 | 940 | WE, 0.449 |
7 | 755 | EX, 0.595 |
8 | 379 | LN, 0.469 |
9 | 289 | WE, 0.797 |
10 | 144 | WE, 0.579 |
11 | 52 | LN, 0.896 |
12 | 21 | EX, 0.526 |
13 | 9 | málo údajů |
14 | 6 | málo údajů |
15 | 1 |
|
16 | 1 |
|
Slova délky 2 následují po sobě mnohem častěji, než by se mělo očekávat podle Weibullova rozdělení (234 výskytů proti 76.9 očekávaným). Tento rozdíl činí 87.8 % hodnoty chi-square. Také slova délky 5 příliš často jdou bezprostředně po sobě (206 výskytů proti 70.7 očekávaným), 71 % hodnoty chi-square. Podobně lze analýzovat delší slova.
Jednotlivá písmena dala opět velmi rozdílné výsledky,
které jsou shrnuty v následující tabulce: Symbol | Malé | Velké |
Obojí |
a | 7457, LN, 0 | 525, LN, 0.127 | 7982, LN, 0 |
b | 1299, WE, 0.347 | 211, LN, 0.499 | 1510, WE, 0.050 |
c | 1583, EX, 0.780 | 42, EX, 0.533 | 1625, EX, 0.047 |
d | 4644, NB, 0 | 18, EX, 0.006 | 4670, NB, 0 |
e | 12732, LN, 0 | 50, EX, 0.008 | 12777, LN, 0 |
f | 1993, EX, 0.229 | 118, LN, 0.650 | 2111, EX, 0.006 |
g | 1487, EX, 0.009 | 118, WE, 0.731 | 1605, EX, 0.011 |
h | 8251, LN, 0 | 105, LN, 0.416 | 8356, LN, 0 |
i | 5561, LN, 0.137 | 284, WE, 0.438 | 5845 LN, 0 |
j | 44, LN, 0.137 | 285, LN, 0.266 | 329, LN, 0.120 |
k | 599, WE, 0.474 | 10* | 609, WE, 0.696 |
l | 3547, WE, 0 | 76, EX, 0.725 | 3623, WE, 0 |
m | 2490, EX, 0 | 47, WE, 0.111 | 1349, WE, 0 |
n | 6682, WE, LN, 0 | 53, WE, 0.060 | 6735, LN, 0 |
o | 6768, EX, 0 | 39, WE, 0.245 | 6807, EX, 0 |
p | 1135, WE, 0.103 | 75, LN, 0.627 | 1210, WE, 0.202 |
q | 20 | 0 | 20, EX, 386 |
r | 4600, NB, 0 | 17* | 4617, NB, 0 |
s | 5871, NB, 0 | 155, WE, 0.521 | 6027, NB, 0- 930 |
t | 9265, NB, 0 | 290, WE, 0.122 | 9555, NB, 0 |
u | 2676, EX, 0 | 6* | 2682, EX, 0 |
v | 951, LN, 0.545 | 23, EX, 0.384 | 974, LN, 0.547 |
w | 2076, EX, 0 | 135, LN, 0.144 | 2211, EX, 0 |
x | 41 | 0 | 41, EX, 0.446 |
y | 2109, LN, 0.015 | 27, EX, 0.033 | 2136, LN, 0.020 |
z | 35, EX, 0.038 | 12* | 47, EX, 0.069 |
Weibullovo rozdělení je nejlepší u 17 písmen, lognormalní rozdělení koreluje 25 případů, exponenciální rozdělení je nejlepší v 18 provedených testech a negativně binomialní rozdělení je nejlepší u 8 písmen.
Souhlas vypočtených hodnot s experimentálními je většinou špatný. Opět korelují lépe konce rozdělení. Při rozdělení souboru na více částí se části opět statisticky lišily, ještě více než v případě Sonetů. V následující tabulce jsou porovnány počty statisticky odlišných výsledků v případě, že text byl rozdělen na 6 částí. V horní polovině tabulky je počet statisticky odlišných výsledků pro malá písmena, v dolní polovině tabulky
je rozdíl statisticky odlišných výsledků pro malá i velká písmena. Sloučení někdy zhoršilo rozdíly. Největší rozdíl existuje mezi prvou a třetí částí textu. Část | 1 | 2 | 3 | 4 | 5 | 6 |
1 |
| 4 | 7 | 4 | 2 | 4 |
2 | -1 |
|
2 |
1 |
2 |
3 |
3 | 2 | 2 |
| 4 | 6 | 2 |
4 | 1 | -1 | 2 |
|
1 |
1 |
5 | 1 | -1 | 0 | 0 |
| 3 |
6 | 1 | 1 | -1 | 1 | 3 |
|
Generátor náhody
Pro porovnání výsledů lexikální analýzy by bylo dobré mít srovnávací materiál. Jednou možností by byl nějaký generátor náhodných čísel. Nevýhodou náhodných číselje nereprodukovatelnost. Jako výhodnější jsem považoval analýzu čísla e = 2,718281828.... Toto číslo je výsledek algoritmu sečítajícího inversní faktoriály
e = 1 + 1/1! + 1/2! + 1/3! + 1/4! ....
Jednotlivé číslice se v čísle e vyskytují náhodně (i když začátek čísla tomu neodpovídá). J. Ventluka publikoval číslo e vypočtené na 100000 decimálních míst. Rozdělení vzdálenosti mezi číslicemi je korelováno nejlépe negativně binomiálním rozdělením.
Zde je příklad korelace pro číslici 6 v dekadickém zápisu jako příklad špatné korelace:
Dolní | Horní |
Pozorovaná | Očekávaná | |
limit | limit |
frekvence | frekvence |
Chisquare |
1 | 2.516 |
235 |
220.0 | 1.0207 |
2.516 | 5.240 |
253 |
248.8 | .0720 |
5.240 | 7.964 |
98 |
124.3 | 5.5791 |
7.964 | 10.689 |
132 |
140.6 | .5246 |
10.689 | 13.413 |
101 |
99.8 | .0138 |
13.413 | 16.137 |
86 |
70.9 | 3.2247 |
16.137 | 18.861 |
41 |
35.4 | .8765 |
18.861 | 21.585 |
39 |
40.1 | .0279 |
21.585 | 24.310 |
31 |
28.4 | .2299 |
24.310 | 27.034 |
14 |
20.2 | 1.9010 |
27.034 | 29.758 |
6 |
10.1 |
1.6607 |
29.758 |
32.482 | 7 | 11.4 | 1.7067 |
32.482 |
35.206 | 13 | 8.1 | 2.9575 |
35.206 | 40.655 |
10 |
8.6 |
.2173 |
Chisquare = 20.4604 s 14 stupni volnosti. Hladina významnosti = 0.116281
Druhým extrémem je číslice 7:
Dolní | Horní |
Pozorovaná | Očekávaná | |
limit | limit | frekvence | frekvence |
Chisquare |
pod | 1.000 |
106 |
101.5 | .1998214 |
1.000 | 4.097 |
247 |
247.1 | .0000688 |
4.097 | 7.194 |
175 |
179.7 | .1220749 |
7.194 | 10.290 |
128 |
130.6 | .0535168 |
10.290 | 13.387 |
93 |
95.0 | .0416361 |
13.387 | 16.484 |
70 |
69.1 | .0126758 |
16.484 | 19.581 |
49 |
50.2 | .0294113 |
19.581 | 22.677 |
46 |
36.5 | 2.4664300 |
22.677 | 25.774 |
28 |
26.5 | .0796353 |
25.774 | 28.871 |
20 |
19.3 | .0253087 |
28.871 | 31.968 |
13 |
14.0 | .0761013 |
31.968 | 35.065 |
8 |
12.9 |
1.8878681 |
35.065 |
38.161 | 6 | 6.7 | .0674840 |
38.161 |
44.355 | 8 | 8.4 | .0169562 |
Chisquare = 5.11795 s 13 stupni volnosti. Hladina významnosti = 0.972504
Shoda je téměř dokonalá. Vysvětlení rozdílu je v dekadické bázi čísla. Pokud zapíšeme číslo třeba v dvojkové soustavě, dostaneme zcela jiné výsledky.
V následující tabulce je přehled výsledků od binární do dvanáctkové soustavy. Uvedeny jsou tři platné hodn
oty chisquare: Základ | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 |
2 | 113 | 047 |
|
|
|
|
|
|
|
|
|
|
3 | 874 | 572 | 212 |
|
|
|
|
|
|
|
|
|
4 | 440 | 102 | 244 | 693 |
|
|
|
|
|
|
|
|
5 | 799 | 517 | 273 | 835 | 837 |
|
|
|
|
|
|
|
6 | 992 | 763 | 337 | 818 | 354 | 682 |
|
|
|
|
|
|
7 | 587 | 590 | 468 | 445 | 763 | 440 | 282 |
|
|
|
|
|
8 | 125 | 378 | 837 | 457 | 126 | 138 | 766 | 772 |
|
|
|
|
9 | 298 | 755 | 846 | 465 | 043 | 236 | 468 | 760 | 958 |
|
|
|
10 | 736 | 650 | 818 | 831 | 417 | 156 | 116 | 972 | 793 | 895 |
|
|
11 | 568 | 959 | 892 | 263 | 438 | 667 | 601 | 078 | 337 | 554 | 660 |
|
12 | 256 | 318 | 682 | 781 | 657 | 236 | 110 | 346 | 781 | 960 | 318 | 828 |
Je zřejmé, že nejhorší korelace je téměř vždy uprostřed řady, případně se střídá v zápisu více horších a lepších výsledků.
Genetická informace
Zmínil jsem na počátku Mendela, který objevil základní zákon dědičnosti. Dnes vědci dokážou číst genetickou informaci. Základem je náhodný kopolymer čtyř chemických sloučenin ribonukleových kyselin (adenin A, guanin G, tymin T a cytosin T), známý jako DNA. Tento polymer je program pro buněčný komputer. Buňka dokáže DNA reprodukovat, vytvořit její kopii, případně použije DNA jako vzor pro syntézu proteinů. Trojice ribonukleových kyselin odpovídá vždy jedné amino kyselině nebo také interpukčnímu znaménku, které odděluje proteiny. Syntézy proteinů se však účastní jen 20 amino kyselin, proto je tripletový kód nadbyt
ečný a některé amino kyseliny jsou kódované několika triplety.Po tomto vulgárním úvodu si můžeme ukázat výsledky vzdálenostní analýzy jednoho obávaného lidského genu, označovaného v odborné literatuře jako fragment FRAXGE 52 seq. Počátek zápisu má tvar:
GAATTCAGGT AAGCTATCTT GAAAGGGGAA ATATCAAAAGCTAGAGATCA GAGTAAGGCT GAGACTCAGA GTCAAGTGGG GAAGACTAAG TTGCAGTATG TACTGGCAGT GAAGATAAGT Po převedení tripletů na 64 znaků ASCII se dostal zápis ve formě (tuto barvu si vybral program sám) =RBiPkpPXyIKw?G@vY=DLywgYNYAQEZmS[F=>gUOUYQQqqIjYikIarTRy=jPmAMVf\^{}<wM>LpaWUJDkUBz\^{}VVJ
\^{}jG
G
fd\^{}ABF
Tato tajná řeč lidského těla má své statistické vlastnosti. Každý znak odpovídá aminokyselině s výjimkou koncových symbolů (G, F, J), které oddělují proteiny, případně jejich zlomky.
Triplet |
Frekvence | Rozpětí | EX | WE | LN | NP | Pozn |
TTT: < Phe | 184 | 1-458 | 0.000 |
0.238 | 0.092 | 0.000 | |
TTC: = Phe | 92 | 1-708 |
0.109 | 0.255 | 0.055 |
0.118 |
|
Fenylalanin | 276 | 1-458 | 0.000 |
0.551 | 0.159 | 0.000 |
|
TCT: ' Ser | 125 | 1-303 | 0.623 | 0.615 | 0.018 | 0.623 |
|
TCC: A Ser | 114 | 1-258 | 0.623 | 0.622 | 0.006 | 0.657 |
|
TCA: B Ser | 100 | 2-367 | 0.581 | 0.877 | 0.084 | 0.039 |
|
TCG: C Ser | 35 | 3-853 | 0.935 | 0.428 | 0.469 | 0.029 |
|
AGT: h Ser | 85 | 2-526 | 0.025 | 0.021 | 0.008 | 0.001 |
|
AGC: i Ser | 115 | 1-286 | 0.273 | 0.170 | 0.273 | 0.271 | l |
Serin | 574 | 1-97 | 0.089 | 0.220 | 0.000 | 0.131 |
|
TAT: D Tyr | 65 | 2-568 | 0.105 | 0.071 | 0.043 | 0.000 | l |
TAC: E Tyr | 62 | 2-555 | 0.257 | 0.324 | 0.026 | 0.164 | p |
Tyrosin | 127 | 1-330 | 0.090 | 0.061 | 0.002 | 0.106 |
|
TAA: F ochre | 78 | 1-545 | 0.229 | 0.069 | 0.069 | 0.254 |
|
TAG: G amber | 77 | 1-417 | 0.192 | 0.132 | 0.007 | 0.254 | p |
TGT: H Cys | 105 | 1-294 | 0.978 | 0.951 | 0.144 | 0.977 |
|
TGC: I Cys | 110 | 1-415 | 0.104 | 0.184 | 0.054 | 0.088 | p |
Cystein | 215 | 1-150 | 0.929 | 0.936 | 0.034 | 0.854 |
|
TGA: J opal | 133 | 3-347 | 0.708 | 0.289 | 0.084 | 0.000 |
|
TGG: K Try | 152 | 1-279 | 0.937 | 0.991 | 0.299 | 0.912 |
|
TTA: > Leu | 81 | 1-611 | 0.797 | 0.925 | 0.187 | 0.640 |
|
TTG: ? Leu | 125 | 1-284 | 0.813 | 0.609 | 0.432 | 0.712 | |
CTT: L Leu | 124 | 1-324 | 0.343 | 0.233 | 0.002 | 0.341 | l |
CTC: M Leu | 155 | 1-347 | 0.389 | 0.666 | 0.015 | 0.282 |
|
CTA: N Leu | 88 | 1-381 | 0.771 | 0.815 | 0.009 | 0.764 |
|
CTG: O Leu | 163 | 1-344 | 0.227 | 0.255 | 0.268 | 0.144 |
|
Leucin | 736 | 1-63 | 0.000 | 0.000 | 0.000 | 0.000 |
|
CCT: P Pro | 160 | 1-213 | 0.644 | 0.497 | 0.035 | 0.634 | p |
CCC: Q Pro | 133 | 1-439 | 0.247 | 0.842 | 0.247 | 0.664 |
|
CCA: R Pro | 161 | 1-292 | 0.263 | 0.140 | 0.000 | 0.369 | c |
CCG: S Pro | 57 | 2-569 | 0.437 | 0.602 | 0.109 | 0.000 |
|
Prolin | 511 | 1-87 | 0.000 | 0.000 | 0.000 | 0.002 |
|
CAT: T His | 107 | 1-263 | 0.568 | 0.586 | 0.138 | 0.450 | l |
CAC: U His | 116 | 1-442 | 0.140 | 0.647 | 0.010 | 0.136 |
|
Histidin | 223 | 1-150 | 0.602 | 0.538 | 0.006 | 0.382 |
|
CAA: V Gln | 112 | 1-301 | 0.434 | 0.432 | 0.126 | 0.395 | p |
CAG: W Gln | 166 | 1-242 | 0.213 | 0.103 | 0.002 | 0.177 | p |
Glutamin | 278 | 1-150 | 0.602 | 0.538 | 0.006 | 0.382 |
|
CGT: X Arg | 41 | 1-667 | 0.615 | 0.829 | 0.565 | 0.596 |
|
CGC: Y Arg | 39 | 1-632 | 0.104 | 0.184 | 0.054 | 0.099 | p |
CGA: Z Arg | 36 | 8-738 | 0.823 | 0.631 | 0.304 | 0.000 |
|
CGG: \"A Arg | 54 | 1-552 | 0.761 | 0.854 | 0.026 | 0.730 |
|
AGA: j Arg | 132 | 2-213 | 0.517 | 0.367 | 0.001 | 0.000 |
|
AGG: k Arg | 184 | 1-188 | 0.247 | 0.182 | 0.001 | 0.233 |
|
Arginin | 486 | 1-92 | 0.072 | 0.042 | 0.000 | 0.073 |
|
ATT: \"O Ile | 93 | 2-421 | 0.002 | 0.001 | 0.000 | 0.000 | p |
ATC: \"U Ile | 91 | 1-357 | 0.238 | 0.198 | 0.043 | 0.239 |
|
ATA: \^{} Ile | 80 | 1-724 | 0.023 | 0.445 | 0.426 | 0.023 | l |
Ileucin | 264 | 1-199 | 0.004 | 0.007 | 0.031 | 0.032 |
|
ATG: \_{} Met | 68 | 1-487 | 0.443 | 0.293 | 0.129 | 0.444 |
|
ACT: ` Thr | 102 | 1-246 | 0.863 | 0.574 | 0.038 | 0.899 |
|
ACC: a Thr | 102 | 3-459 | 0.774 | 0.587 | 0.116 | 0.000 | p |
ACA: b Thr | 101 | 1-241 | 0.885 | 0.826 | 0.226 | 0.868 | |
ACG: c Thr | 33 | 1-988 | 0.355 | 0.178 | 0.032 | 0.370 |
|
Threonin | 338 | 1-129 | 0.284 | 0.286 | 0.001 | 0.103 | |
AAT: d Asn | 108 | 1-345 | 0.277 | 0.205 | 0.007 | 0.278 | c |
AAC: e Asn | 78 | 1-456 | 0.001 | 0.001 | 0.013 | 0.001 | |
Asparagin | 186 | 1-250 | 0.948 | 0.942 | 0.048 | 0.759 | |
AAA: f Lys | 257 | 1-282 | 0.000 | 0.001 | 0.000 | 0.000 | l, p |
AAG: g Lys | 109 | 1-338 | 0.012 | 0.168 | 0.004 | 0.012 | |
Lysin | 366 | 1-206 | 0.000 | 0.000 | 0.000 | 0.000 |
|
GGT: l Val | 74 | 1-446 | 0.311 | 0.246 | 0.062 | 0.346 |
|
GTC: m Val | 70 | 2-601 | 0.050 | 0.306 | 0.153 | 0.630 | p |
GTA: n Val | 62 | 4-636 | 0.021 | 0.018 | 0.007 | 0.008 |
|
GTG: o Val | 118 | 1-272 | 0.199 | 0.182 | 0.002 | 0.196 |
|
Valin | 324 | 1-151 | 0.072 | 0.047 | 0.000 | 0.265 |
|
GCT: p Ala | 126 | 1-377 | 0.544 | 0.411 | 0.202 | 0.570 |
|
GCC: q Ala | 132 | 1-221 | 0.417 | 0.346 | 0.003 | 0.437 |
|
GCA: r Ala | 110 | 1-318 | 0.272 | 0.586 | 0.377 | 0.272 |
|
GCG: s Ala | 42 | 2-421 | 0.353 | 0.111 | 0.042 | 0.113 |
|
Alanin | 410 | 1-142 | 0.265 | 0.408 | 0.011 | 0.073 | l |
GAT: t Asp | 105 | 1-346 | 0.750 | 0.852 | 0.146 | 0.749 |
|
GAC: u Asp | 61 | 2-634 | 0.464 | 0.301 | 0.003 | 0.062 | p |
Aspartová kyselina | 166 | 1-207 | 0.312 | 0.312 | 0.009 | 0.598 | p |
GAA: v Glu | 100 | 1-395 | 0.230 | 0.353 | 0.141 | 0.234 | p |
GAG: w Glu | 179 | 1-240 | 0.313 | 0.852 | 0.045 | 0.229 | l |
Glutamová kyselina | 279 | 1-180 | 0.006 | 0.101 | 0.003 | 0.001 | l |
GGT: x Gly | 105 | 1-346 | 0.615 | 0.852 | 0.145 | 0.749 |
|
GGC: y Gly | 158 | 2-209 | 0.192 | 0.145 | 0.006 | 0.000 | p |
GGA: z Gly | 123 | 1-278 | 0.022 | 0.015 | 0.000 | 0.021 |
|
GGG: \"a Gly | 144 | 1-245 | 0.086 | 0.854 | 0.093 | 0.730 | l, p |
Glycin | 530 | 1-81 | 0.000 | 0.001 | 0.000 | 0.000 |
|
p= vrchol představující asi polovinu hodnoty chisquare
l= údolí představující asi polovinu hodnoty chisquare
c= kráter – údolí lemované na obou stranách vrcholy
Podrobná analýza by mohla být zajímavá pro odborníky. Vedle výtečných korelací se vyskytují zcela rozházené výsledky. Můžeme si všimnout třeba glycinu. Dva triplety korelují velmi dobře s Weilbullovým rozdělením, avšak souhrn se chová zcela nevypočítatelně.
Závěr
Když člověk začíná něco nového, nikdy určitě neví, zda se mu to podaří a zda výsledek bude k něčemu dobrý. To platí i pro analýzy vzdáleností mezi symboly. Zatím existuje příliš málo dat, aby bylo možné hodnotit užitečnost této metody.
U DNA máme možnost hledat Stvořitele (a ptát se, proč pustil do světa nepodařený výsledek, který vede k Downovu syndromu) nebo hledat možnosti, jak mohlo dojít ke vzniku DNA samovolně. Tři pozorovaná rozdělení, negativně binomiální, logaritmicko normální a exponenciálního rozdělení
jsou známá v makromolekulární chemii polymerů. Je třeba známo, že logaritmicko normální rozdělení hmotnosti polymeru vzniká při polymeraci na částicových katalyzátorech. V přírodě by takovými katalyzátory mohly být silikáty.U textů známe autora, i jeho záměry. Pokud sami píšeme, máme možnost si ověřovat celý proces. Přes to rozdělení vzniká zcela nevědomě, žádný autor si neřekne, rozmístím souhlásku f podle tohoto rozdělení.
Shakespeare zacházel s jazykem jinak než autor (přesněji řečeno překladatel, řeckž originál jsem nestudoval) Evangelia. Dbal nejen na to co chtěl vyjádřit, ale také na krásu svých veršů. To se projevilo ve výsledcích. Oba texty se v mnoha směrech liší. Formální statistickou analýzu by měla doplnit analýza obsahu, která by interpreto
vala pozorované rozdíly v jednotlivých částech obou děl, čím jsou způsobeny. V obou případech je rozdělení vzdáleností bezděčným výsledkem vědomého úsilí autorů.Ve výtvarném umění je krása spojována se symetrií. Ostatně i poesie vyžaduje pravidelné střídání přízvučných a nepřízvučných slabik a rýmů.
Symetrie se dá měřit. Třeba lze zjistit počet prvků symetrie.Základní grupa symetrie S
n je spojena s permutacemi n různých symbolů, které mohou tvořit cykly různé délky. Permutace lze klasifikovat podle počtu cyklů a jejich délek.Texty jsou v podstatě řady symbolů, které se mohou opakovat. Z dostatečně velké zásoby písmen lze vysázet všechny knihy, které kdy existovaly nebo budou existovat. Tyto texty lze oceňovat podle frekvence symbolů, což je prvá použitelná míra. Podle této míry není rozdíl mezi písmeny v tiskařské kase a ve vysázeném textu, frekvence symbolů se při sazbě nemění.
Druhou možnou mírou je stupeň ”promíchání” symbolů v textu. Takovou mírou jsou vzdálenosti mezi symboly.
Boltzmann spojil symetrii rozdělení energie s termodynamickou funkcí známou jako entropie. Podobná funkce se používá i v teorii informace. To už jsou však problémy, které by vyžadovaly samostatné pojednání.
Literatura
Uvádím náhodný výběr relevantní literatury v různých formátech:
P. Eisner, Rady Čechům, jak se hravě přiučiti češtině, Odeon, Praha 1992, s. 28.
J. O. Irwin, The Place of Mathematics in Medical and Biological Statistics, J. Royal Statistical Soc. A 126, 1963, Part 1, s. 1-45.
Haitun, S. D. (1982a) Stationary Scientometric Distributions I: Different Approximations. Scientometrics, , 4, 525.
Haitun, S. D. (1982b) Stationary Scientometric Distributions II: Non Gaussian Nature of Scientific Activities. Scientometrics, 4, 89 - 101.
Haitun, S. D. (1982c) Stationary Scientometric Distributions III: The Role of the Zipf Distribution. Scientometrics, 5, 375 - 395.
Harary, F.; Paper, H. H. (1957) Toward a General Calculus of Phonemic Distribution, Language, 33, 143-169.
Huen, Y. K. Representation of Biological Sequences Using Point Geometry Analysis, Visualizing Biol. Inf.; Pickover, C. A. Ed.; Word Scientific, Singapore, 1995, 165 - 182.
Irwing, J. O. The Place of Mathematics in Medical and Biological Statistics, {\it J. Royal. Statistical Soc. A, 1963, 126, 1 - 45.
Kunz, M. (1987) Time Spectra of Patent Information, Scientometrics, 11, 163 - 173.
Kunz, M. (1993) About metrics of bibliometrics, J. Chem. Inform. Comput. Sci., 33, 193 – 196.
M. Kunz, Matrix Theory of Information, Science and Science of Science, 3, 1994, č. 5, s. 141- 142.
Kunz, M. (1995) Plots against Information Laws, Science and Science of Science, 3, (1-2), 91 -- 97.
Kunz, M. ; Rádl, Z. (1998) Distribution of Distances in Information Strings, J. Chem. Inform. Comput. Sci., 38, 374-378.
A. A. Markov, Primer Statističeskogo isledovanija nad tekstom "Jevgenija Oněgina " illustrujuščij svjaz ispytanij v cep, Bull. Acad. Imp. Scien. de St. Pétersbourg. Ser VI,
7,1913, s. 153-162.McGrath, W. E. Periodicity in Academic Library Circulation, a Spectral Analysis, in Kretschmer, H. Ed. Fourth International Conference on Bibliometrics, Informetrics and Scientometrics, September 11-15,1993, Berlin, Book of Abstracts, Part I.
Ninio, J.; Mizraji, E. Perceptible Features in Graphical Representations of Nucleic Acid Sequences, Visualizing Biol. Inf.; Pickover, C. A. Ed.; Word Scientific, Singapore, 1995, 33 - 42.
Schilling, M. F. Long Run Predictions, Math. Horizon., Spring 1994, 10 - 12.
Schmitt, A. O.; Ebeling, W.; Herzel, H. The Modular Structure of Informational Sequences, Biosystems, 1996, 37, 199 - 210.
Stanley, H. E.; Buldyrev, S. V.; Goldberger, A. L.; Havlin, S.; Mantegna, R. N.; Peng, C-K.; Simons, M. NATO ASI Ser., Ser. E, 1996, 322 (Physics of Biomaterials: Fluctuations, Selfassembly and Evolution) 219 - 234.
M. Těšitelová, Otázky lexikální statistiky, Academia, Praha 1974.
M. Těšitelová a kolektiv, O češtině v číslech, Academia, Praha 1987.
J. Ventluka, CHIP, CD-ROM, 1999.
O.U. Yule, The Statistical Sudy of Literary Vocabulary, University Press, Cambridge 1944.