Rozdělení intervalů mezi písmeny

MILAN KUNZ, ZDENĚK RÁDL

Statistická lingvistika má dlouhou tradici, která byla nejprve spojena s počítáním slov bible. Písmena a slova se pak počítaly z různých důvodů. Praktický záměr učit žáky nejdříve nejfrekventovanější slova (1) vedl k objevu Zipfova rozdělení, jednoho ze tří rozdělení charakteristických pro informaci. Anglický statistik na odpočinku Yule v těžkých válečných létech počítal slova v zamilovaných knihách, aby zapomněl na hroznou skutečnost (2).

Studovalo se i rozdělení písmen v jednotlivých jazycích. Ruský matematik Markov (3) se koncem minulého století zajímal o pravděpodobnosti, s jakými následují za sebou souhlásky a samohlásky v Puškinových spisech. Z této bezúčelné kratochvíle se rozvinula celá teorie Markovových procesů, která nachází uplatnění ve fyzice a chemii.

Sestavení statistiky úplných textů ještě nedávno vyžadovalo úmornou a trpělivou práci. Vpád počítačů do našeho života s textovými editory a procesory umožňuje zkrátit týdny a měsíce na vteřiny. Třeba i program počítání slov pro výpočet odměny za překlad na přání sestaví tabulku frekvence slov podle jejich délky a umožní tak ověřit, zda jsme vybírali slova přibližně podle logaritmicko normálního rozdělení.

Zatím málo pozornosti věnovala statistická lingvistika intervalům mezi stejnými slovy či písmeny (hláskami, 4).

Jsou sice známy četné příklady úmyslného hromadění hlásek, jako je třeba (5) sled 6 veršů začínající "Ouplné luny krásná tvář" ..., kdy z 51 samohlásek je 23 a, což tvoří 45.1 % textu. Co však říci tomu, když na řádku 60 znaků se hláska a vyskytne 14 krát (při tom se nepočítají á) a poměr k ostatním samohláskám je 58.3 %. Je to normální náhoda, pouhý důsledek hláskových kvalit češtiny, nebo záměr?

Na čem vlastně závisí intervaly mezi písmeny? Slova se vybíráme většinou s ohledem na obsah sdělení. Můžeme se sice pokusit sestavit text, kde slova začínají stejnými písmeny, konstruovat anagramy, nebo volit záměrně slova obsahující určité hlásky, avšak většinou tyto možnosti nevyužíváme. Lze tedy říci, že rozdělení písmen je stochastické a je dáno vlastnostmi jazyka, který používáme.

Kdybychom měli jen dva znaky (tečky čárky Morseovy abecedy), potom by se rozdělení těchto znaků řídilo binomickým rozdělením a rozdělení intervalů mezi nimi záporně binomickým rozdělením. Binomické rozdělení je obecně známé, ve formě Pascalova trojúhelníka, který počítá všechny možné sekvence určité délky:

0

1

 

 

1

1

1

   

2

1

2

1

 

3

1

3

3

1

Existují následující možnosti pro skupiny 3 prvků: 000; 001, 010, 100; 011, 101, 110; a 111.

Dlouhou sekvenci lze popsat také tak, že počítáme intervaly mezi stejnými znaky. Takový zápis může být výhodný, pokud počet znaků nebude stejný. Potom počítání intervalů mezi méně častým znakem popis sekvence zkrátí. U binomického rozdělení je rozdělení intervalů známé jako záporně binomické rozdělení. Toto rozdělení je mnohem méně známé než vlastní binomické rozdělení. Bylo použito pro korelaci extrémně kosých rozdělení podobných rozdělením informace (6).

Záporně binomické rozdělení je použitelné i pro popis znaků abeced, pokud shrneme znaky do dvou tříd, studovaný znak a všechny ostatní. Postupně můžeme vydělovat všechny znaky a tak se objeví polynomické rozdělení. A stejně jako jsme dostali z binomického rozdělení rozdělení záporně binomické rozdělení, tak z polynomického rozdělení získáme záporně polynomické rozdělení. V našem případě jsme nevylučovali už spočítané znaky, takže jsme dostali soubor záporně binomických rozdělení.

Trochu jiný přístup ke stejnému problému než teorie pravděpodobnosti představuje teorie grup. Pokud označíme znaky v základním uspořádání indexy, potom vznik slova či textu můžeme chápat jako permutaci.

Třeba ze sady písmen

1 2 3 4 5 6

a b b c e i

se sestaví slovo přesmykem původního pořadí

(2 1)(3)(6 4 5)

b a b i c e

tak lze považovat texty za pouhé permutace znaků.

Tento formalismus má významný koncepční důsledek. Vzhledem k tomu, že grupa cyklických permutací je základní grupou symetrie, rozdělení písmen v textu se najednou objeví jako jeho symetrie (7). Text z tohoto pohledu má podobné vlastnosti jako nějaký ornament nebo krajka a hledáme rytmus, v jakém se motivy opakují.

V souvislosti se zjištěním, že časové intervaly mezi následujícími publikacemi jednoho autora lze popsat Weilbullovým rozdělením (nepublikováno), jsme se začali zajímat o intervaly mezi písmeny.

Sestavili jsme program, který nejprve stanoví pořadí znaků ASCII v jednotlivých řádcích textu a jejích počet a potom určí rozdíly mezi pořadími pro daný znak. Prvá verze programu nepočítala dvojhlásky (ou, ch). Určité zkreslení působil editor T602, ve kterém jsme měli texty k dispozici. Na začátku odstavce se načítaly po sobě 4 mezery mezi slovy. Naopak, měkké konce řádků působily, že mezera mezi slovy tvořená koncem řádku zmizí. Tyto systematické chyby jsou však pro všechna písmena stejné a nemohou mít podstatný vliv, který by zásadně zkreslil zatím získané údaje. Předběžné výsledky jsme vyhodnocovali programem Statgraphic (8), který umožňuje výpočty se soubory až 5000 údajů. To omezuje rozsah textu, který lze analyzovat. Pro analýzy jsme vybrali text s frekvencí nejčastějších písmen asi 2000 (9). Počet mezer, jejichž vzdálenosti odpovídají délkám slov, byl přes 6000.

Shoda experimentálního rozdělení s použitým byla vyhodnocována podle statistického kriteria chi kvadrát. Většinou jsme nevyužívali možnosti programu rozlišovat malá a velká písmena.

Podle našich výsledků hlásky mohou být rozděleny do tří skupin:

1) Hlásky s minimální frekvencí 1-26, kdy malý počet dat a velké rozpětí mezi minimem a maximem neumožňuje rozumnou analýzu. Tato písmena byly ď, q, ó, ú, ť, w a x.

2) Hlásky se střední frekvencí 74 až asi 1000. V tomto případě jsou použitelná čtyři rozdělení: záporně binomické, logaritmicko normální, Weilbullovo a exponenciální, někdy i současně s různou pravděpodobností, tedy dokonalostí shody. To je způsobeno nepravidelnostmi pozorovaných intervalů proti ideálním, objevují se singularity až typu bimodálního rozdělení, některé intervaly mezi znaky jsou méně či naopak více časté než by odpovídalo hladkému průběhu. Vzhledem k malým počtům pozorování se tyto anomálie projeví významně na kriteriu chi kvadrát. To může být způsobeno nepravidelným výskytem slov obsahujících tyto hlásky v textu. Jako příklad vyjímečně dobré shody můžeme uvést hlásku i, viz tabulku 1.

3) Hlásky s vysokou frekvencí přes 1500. Tyto hlásky, které tvoří kostru textu, se nepodařilo jako celek uspokojivě korelovat žádným naprogramovaným rozdělením, aby se dosáhla statistiky významná hodnota chi kvadrát. Výrazného úspěchu se však dosáhlo se záporně binomickým rozdělením, pokud se ignorovaly krátké intervaly do 20-25 znaků. Zde kolísavé výsledky působí pronikavé zhoršení kriteria. Pokud se tyto intervaly shrnuly do jedné třídy, jejíž součet souhlasil přibližně s teoretickým počtem, zbytek rozdělení měl výtečnou shodu, takže korelace se staly ihned velmi významné. Tato technika zlepšovala výsledky i u exponenciálního rozdělení.

U hlásek se střední frekvencí toto odfiltrování probíhalo automaticky, protože program vytvářel prvou skupinu s tímto rozsahem či větším sám vzhledem k rozpětí hodnot v rozsahu 2 až 500 i více. Pro nejfrekventovanější hlásku e se nepodařilo najít žádné vyhovující rozdělení. Rovněž u druhé nejfrekventovanější hlásky o byla shoda se záporně binomickým rozdělením jen málo významná. Lepší popis se dosáhl rozlišením malých a velkých písmen. E se vyskytovalo 52 krát a popisovalo je logaritmicko normální rozdělení s významností kriteria chi kvadrát 0.203, e se vyskytovalo 2267 krát a od vzdálenosti 13 se dalo modelovat exponenciálním rozdělením s s významností kriteria chi kvadrát 0.222.

Výsledky průzkumu všech znaků jsou shrnuty do tabulky 2. Vzhledem k tomu, že jsme zatím analyzovali pouze jeden text, neuvádíme charakteristiky jednotlivých rozdělení, jako jsou průměry a směrodatné odchylky, ale pouze významnosti. V podstatně stejné výsledky, existence tří skupin hlásek s různým charakterem rozdělení intervalů, se dosáhly i u anglického textu. V češtině však mají znaky zpravidla větší rozpětí intervalů při podobné četnosti, ale existují výjímky.

Pokud se týče zjištění počtu písmen v řádcích, nejzajímavější průkazný výsledek se dosáhl s písmenem a. Zde bylo maximum 14, jak jsme už uvedli. Počet písmen v řádcích popisuje useknuté normální rozdělení (počty písmen v řádcích nemohou být záporné, ačkoliv normální rozdělení jako symetrické to vyžaduje při průměru menším než polovina rozpětí, normální rozdělení odpovídá i binomickému rozdělení) s průměrem 3.13 a standardní odchylkou 2.18. To i přes skutečnost, že dosti velký počet řádků textu byl neúplných.

Na základě tohoto výsledku lze předpokládat, že Eisner by své tvrzení, že Mácha vědomě volil gramatický rod, aby dosáhl velké frekvence hlásky a, nemohl statisticky dokázat, protože nelze zamítnout nulovou hypotézu, podle které pozorovaná četnost hlásky a ve verších je čistě náhodná.

Závěrem lze konstatovat, že s výjimkou krátkých vzdáleností do 20-25 znaků, což je přibližně třetina řádku nebo jinak asi 3 až 5 slov, se hlásky vzájemně neovlivňují a mají statisticky zcela náhodné rozdělení. Fakt, že jsou použitelná hned čtyři rozdělení, někdy dokonce současně s poměrně vysokou průkazností, klade otázku, za jakých podmínek se rozdělení tvoří a jak stabilní vlastně jsou. Krátké intervaly bude třeba studovat podrobněji samostatně na velkém počtu příkladů, aby se odkryly všechny jejich zvláštnosti, které asi působí charakter slovní zásoby, kmenů a předpon a přípon. Vysvětlit bude třeba okolnost, proč některé hlásky se chovají přímo modelově a jiné jsou dosti svéhlavé. Určitou roli bude mít asi výběr slov. Na příklad v tomto textu jsme se nemohli vyhnout hromadění termínu "rozdělení", pro který nemáme vhodné synonymum. Vysoký výskyt tohoto slova se přirozeně musí projevit jako anomálie u písmen, které jej tvoří, takže u krátkých textů nikdy nebudou výsledky pro jednotlivé znaky zcela shodné, ale musíme očekávat jejich variabilitu. Stanovení intervalů mezi hláskami by se mohlo stát dalším nástrojem statistické lingvistiky, který nám umožní lépe pochopit všechny zvláštnosti naší řeči.

HLÁSKA I. ZÁPORNĚ BINOMICKÉ ROZDĚLENÍ

TEST CHI KVADRÁT

Dolní mez

Horní mez

Frekvence

Chi kvadrát

Pozorováno

Očekáváno

 

pod 4.7

178

183.5

0.16653

4.7

9.5

186

193.2

0.26596

9.5

14.3

187

159.5

4.75077

14.3

19.1

146

131.7

1.56211

19.1

23.9

93

88.6

0.21956

23.9

28.7

77

93.2

2.82945

28.7

33.5

68

77.0

1.04735

33.5

38.3

62

63.6

0.03791

38.3

43.1

50

52.5

0.11603

43.1

47.9

28

35.3

1.51105

47.9

52.7

35

37.2

0.12534

52.7

57.5

34

30.7

0.35998

57.5

62.2

25

25.3

0.00420

62.2

67.0

18

20.9

0.40464

67.0

71.8

17

14.1

0.61066

71.8

76.6

16

14.8

0.09598

76.6

81.4

11

12.2

0.12275

81.4

86.2

9

10.1

0.11830

86.2

91.0

6

8.3

0.65284

91.0

95.8

5

5.6

0.06563

95.8

100.6

8

5.9

0.74657

100.6

110.2

10

8.9

0.13758

110.2

119.7

5

5.6

0.05541

119.7

134.1

8

5.9

0.75091

nad 134.1

 

9

7.6

0.26337

 

Chi kvadrát = 17.0209 s 23 stupni volnosti.

Hladina významnosti = 0.808226

Tabulka 2

ROZDĚLENÍ INTERVALŮ MEZI PÍSMENY

Písmeno

Počet

Rozpětí

Statistická významnost rozdělení

záporně binomické

logaritmicko normální

Weilbullovo

exponenciální

f

74

1-2766

0

0

*

 

g

75

17-4465

0

xxx

**

-

ů

98

4-1912

0

0

xxx

xxx

ý

151

3-1335

0

0

xxx

0

š

243

3-917

0

0

**

**

č

248

2-666

0

0

xxx

0

ř

333

2-1095

0

xxx

*

0

ě

342

4-1052

0

0

xxx

**

ž

351

2-625

0

0

**

**

b

367

2-605

0

**

**

0

é

398

2-755

0

0

**

0

z

420

1-544

0

0

**

**

á

441

2-763

0

0

**

0

h

469

1-492

**

0

**

0

j

545

1-422

xxx

0

*

*

y

558

2-510

0

0

**

*

c

571

1-394

**

0

*

**

í

638

2-437

0

0

**

xxx

u

758

2-297

0

0

0

*

p

819

1-330

25/**

*

0

0

v

868

2-219

0

0

**

*

m

870

1-471

20/**

0

0

*

r

890

1-325

xxx

0

**

xxx

d

925

1-242

20/*

20/**

0

25/*

k

1127

2-251

0

0

*

**

s

1186

1-187

25/**

0

0

0

i

1291

1-214

xxx

0

0

**

l

1407

1-187

xxx

0

0

0

t

1560

1-246

20/**

0

0

0

a

1597

1-146

20/**

0

0

0

a

2051

1-118

15/**

0

0

0

o

2039

1-163

20/*

0

0

0

e

2319

2-138

0

0

0

0

Vysvětlivky:

Rozpětí je nejmenší a největší vzdálenost mezi znaky.

Významnost: číslo před označením významnosti znamená velikost prvé skupiny určené tak, aby se maximalizovalo kritérium chi kvadrát.

Významnost kritéria Chi kvadrát

0 do 0.05

* 0.05-0.10

** 0.11-0.50

xxx přes 0.50.

Literatura

1. M. Těšitelová, Otázky lexikální statistiky, Academia, Praha 1974.

2. O.U. Yule, The Statistical Sudy of Literary Vocabulary, University Press, Cambridge 1944.

3. A. A. Markov, Primer Statističeskogo isledovanija nad tekstom "Jevgenija Oněgina " illustrujuščij svjaz ispytanij v cep, Bull. Acad. Imp. Scien. de St. Pétersbourg. Ser VI, 7,1913, s. 153-162.

4. M. Těšitelová a kolektiv, O češtině v číslech, Academia, Praha 1987.

5. P. Eisner, Rady Čechům, jak se hravě přiučiti češtině, Odeon, Praha 1992, s. 28.

6. J. O. Irwin, The Place of Mathematics in Medical and Biological Statistics, J. Royal Statistical Soc. A 126, 1963, Part 1, s. 1-45.

7. M. Kunz, Matrix Theory of Information, Science and Science of Science, 3, 1994, č. 5, s. 141-142.

8. Firma Statistical Graphic Corporation.

9. A. Rosselli, Kočky na Eifelovce, přeložil Michal Kunz.

ZDENĚK RÁDL je můj dávný kolega, který mi psal programy ještě pro sálový počítač.