Premium

Získejte všechny články
jen za 89 Kč/měsíc

Tvrzení chrámu 2 (statistika)

 (aneb pohled zevnitř a pohled zvenčí) Každý chrám má dvě podoby. Tu, kterou můžeme obdivovat zvenčí, a tu kterou uvidíme pouze zevnitř. Obě představují diametrálně odlišné perspektivy.

Při pohledu zevnitř oceníte jemnou výzdobu oltáře, žebrovou klenbu hlavní lodě nebo strohou úsečnost nekonečných řad dřevěných lavic. Něco, co zvenčí vůbec neuvidíte. Odtamtud ale lépe vyniknou pitoreskní chrliče vody, ornamentované průčelí či majestátní elegance chrámových věží. Každý pohled má své přednosti a nedostatky.

Čeština je také takovým chrámem. Jiné krásy nabízí zvídavým turistům venku a úplně jiné výhody poskytuje svým ovečkám uvnitř. Jako by žila několik životů současně. Jinak ji vidí universitní profesor literatury a jinak ji vidí sezonní česač hrušek. Jinak ji slyší dánský student bohemistiky v Kodani a jinak ji slyší rodilý pražský taxikář. Jinak ji vnímají na Hané, jinak v Polabí a ještě o trochu jinak na Chodsku.

Já se z gondoly mateřského jazyka na češtinu pochopitelně koukám převážně zevnitř. Díky vrtochům osudu se na ni ale občas mrknu i zvenčí. Jednak žiju šest časových pásem od Prahy a hledím na ni přes poměrně rozložitý oceán a jednak jsem matematik, humanitními předměty víceméně nezasažený, takže si s jazykovými fajnovostmi moc hlavu nelámu a většinou se je snažím ošulit. Kdybyste mě o půlnoci probudili a zeptali se, co je to "příčestí", tak Vám to neřeknu. Upřímně řečeno, já Vám to neřeknu ani ve dvě odpoledne, protože to prostě nevím. Ale i přes to, že neznám všechna skrytá zákoutí češtiny a manuál k její obsluze jsem ztratil i se skříní, která jím byla kdysi vypodložená, nevycházím z údivu, jak ten náš jazyk vezdejší dokáže snít, vyprávět, malovat, zpívat, zurčet, třpytit se, mámit, flirtovat, burcovat, ale někdy i remcat, klít, brumlat, popichovat, blábolit či odmlouvat.

Zkrátka všechno zvládne hravě. Doslova. Tak krásnému a bohatému jazyku mě maminka naučila, až se mi občas tají dech. Provází mne celý život - věrně zobrazuje vnější svět do mé vnitřní reality a vůbec mi nenadává, že ho občas omylem majznu po hlavě, když se mé myšlenky v pádu rychle potřebují něčeho zachytit. A asi proto jsem si založil tuhle sérii. Mám pocit, že rodnému jazyku něco dlužím. Pohled z trochu jiné strany.

Datová pitva u Chlumce (29. srpna 1813)

V dnešní pitvě pouze dodělám pár obecných grafů, na které nezbyl v nultém Tvrzení čas.

Nejdříve se podívám na vztah mezi průměrnou délkou slova a karmou. Průměrná délka slova v češtině je zhruba 5 písmenek a četnost slov s danou délkou se dá vyčíst z následujících dvou grafů.

V prvním grafu jsem udělal ze vzorku blogů slovník a prostě jsem spočítal, kolik je v něm slov jednopísmenných, dvoupísmenných, trojpísmenných atd. Na vlastní četnost slov v textech jsem při tom nehleděl. To je samozřejmě vůči krátkým slovům trochu nespravedlivé. Je jich sice méně ale vyskytují se podstatně častěji (nejfrekventovanějším slovem - jak asi tušíte - je jednopísmenná spojka "a"). Proto jsem nakreslil druhý graf, který tu četnost zohledňuje a můžete se na něj dívat jako na četnost slov v textovém korpusu. Takže pokud se nějaké slovo - třeba "nad" - vyskytuje v textu 180x, započítám ho 180x, zatímco v prvním grafu ho započítávám pouze jednou, protože ve slovníku se vyskytuje pouze jednou. Délka slova (tedy počet písmenek) je na ose x.

(mimochodem, kopie slovníku včetně četností je zde)

Z toho druhého grafu vidíte, že když si vyberete náhodné slovo přímo z textu, bude mít nejpravděpodobněji dvě písmenka, pak pět atd. Slovo vytáhnuté náhodně ze slovníku bude nejspíš osmipísmenné. Tady ale musím říci, že různé gramatické variace počítám pro jednoduchost jako samostatná slova ("cesta", "cestami",  "cestou", "cestu" atd tedy počítám každé zvlášť). Kdybych všechna slova převedl do základního tvaru, posílila by se kratší část spektra.

Zatímco předchozímu grafu se někdy říká histogram a ukazuje nám kolik objektů daného typu v souboru máme, následující graf ukazuje rozložení karmy - a to zvlášť pro muže a pro ženy. Technicky se mu říká "hustota pravděpodobnosti", ale můžete si ho představit jako spojitý histogram. Na ose x je karma a na ose y si odečtete jak je daná hodnota pravděpodobná. Tam kde je křivka vyšší, tam je karma pravděpobnější.

Průměrná karma mužských blogů je 17.55, pro ženské blogy je to 13.28 a předchozí graf ukazuje proč tomu tak je. Zatímco v oblasti velmi vysoké karmy (nad 45) jsou ženské a mužské blogy prakticky nerozlišitelné, ve střední části převažují muži.  Tato dominance je podle mého soudu způsobena tím, že muži se častěji pouštějí do kontroverzních (a zhusta politických) témat, zatímco ženy píší většinou o životě, což pohříchu implikuje nízkokarmický obsah. Poměrně široký seznam základních témat a jejich vlivu na karmu najdete v prvním Tvrzení. Vyplývá z něho, že tři největší karmohoňky na tomto serveru jsou islám, rasismus a Ukrajina. Z politiků Vám karmu nejlépe nabudí Karel Schwarzenberg.

Z dalšího grafu vidíme, že průměrná délka slov v blogu nemá na karmu vliv (každý bod reprezentuje jeden blog).

         

 

Ve druhé části se podíváme na to, jaká se v jednotlivých blozích objevují slova, zda běžná a nebo vzácná. Za tím účelem si je ale musíme nejdřív definovat (budu používat stejný slovník)

slova běžná: četnost 100 a více - takových je 10072 z celkového počtu 407742 (2.55%)
slova vzácná: četnost 10 a méně - takových je 340060 z celkového počtu 407742 (83.4%)

Začneme vlivem na karmu. Každý bod opět reprezentuje jeden blog - modré jsou mužské, červené ženské. Na ose y je procento běžných či vzácných slov v daném blogu.

Z těchto dvou obrázků je celkem jasně vidět, že ani běžná ani vzácná slova Vám sama o sobě karmou nezahýbají. Malá zajímavost: mezi blogy, které obsahují alespoň 1000 písmenek je 5 u nichž je podíl vzácných slov 0%.

Ještě o něco zajímavější je srovnání mužů a žen. Vyhodíme karmu a budeme sledovat pouze chování procenta běžných či vzácných slov. Je to opět v podstatě spojitý histogram. Z obrázků vidíte, že běžná slova tvoří většinou 70 - 90% našich individuálních blogů, zatímco slova vzácná přispívají pouze 2 - 10% (zbytek jsou ta slova s četností 10-100, která nesleduju).

Tady je vidět celkem jasně, že u slov běžných hrají prim muži (modrá křivka je posunutá směrem k vyšším procentům), zatímco u slov vzácných dominují ženy (červená křivka je posunutá k vyšším procentům).

Vše tedy můžeme shrnout větou: muži mají vyšší karmu, ale ženy používají bohatější jazyk.

Proč tomu tak je, to si rozmyslete sami.

Autor: Jan Řeháček | čtvrtek 9.10.2014 9:09 | karma článku: 18,22 | přečteno: 846x
  • Další články autora

Jan Řeháček

Jaro: das ist nur die erste Phase

Jaro má v našem parku tři fáze, které jsem výstižně pojmenoval: první, druhá a třetí. Toto je svědectví o první z nich. Můžeme s ním nesouhlasit, můžeme proti němu protestovat, ale to je asi tak vše, co s tím můžeme dělat, Járo.

9.4.2024 v 9:09 | Karma: 16,42 | Přečteno: 413x | Diskuse| Fotoblogy

Jan Řeháček

A je po Velikonocích. A nejen po nich.

Globální kotlík zavěšený nad ohněm inkluze a diversity pomalu vytlačuje národní státy, vyrůstající ze sdíleného kulturního podhoubí. Tomuto trendu se nově přizpůsobuje i řada českých svátků s jejichž novelizací vás chci seznámit.

1.4.2024 v 9:09 | Karma: 21,15 | Přečteno: 455x | Diskuse| Společnost

Jan Řeháček

Impresionisté na hladině

Když se na podzim objevily barvy na stromech, všiml jsem si, že se občas zrcadlí v našem potoce či rybníčku. Tak jsem na ně zamířil objektiv a vyšly z toho roztěkané výtvarné kreace, za které by se nemusel stydět ani Claude Monet.

9.3.2024 v 9:09 | Karma: 22,34 | Přečteno: 320x | Diskuse| Fotoblogy

Jan Řeháček

AI Art: co už umí a co ještě ne

Loni jsem trochu experimentoval s malířskými schopnostmi tehdy nastupující generativní AI Art. Letos, za dlouhých zimních večerů jsem si na to vzpomněl a napadlo mne podívat se, jak moc za ten rok AI pokročila. Nu, posuďte sami.

15.2.2024 v 9:09 | Karma: 17,90 | Přečteno: 369x | Diskuse| Ostatní

Jan Řeháček

Není větvička jako větvička

Stromy a jejich rozeklaná větvoví jsou sochařská díla. V létě to ale nepoznáte, protože přírodní majstrštyky zakrývá koruna. Jakmile ale podzim povolá svá vojska zpět do zálohy, ladná elegance dřevěných křivek vystoupí do popředí.

9.2.2024 v 9:09 | Karma: 19,45 | Přečteno: 434x | Diskuse| Fotoblogy

Jan Řeháček

Co rok dal

Začátek nového roku je tradičně příležitostí k ohlédnutí za rokem starým, takže jsem prohrábl archív a vylovil z něho pár fotografií z našeho parku, které si nenalezly cestu do některého z předchozích tématických blogů.

9.1.2024 v 9:09 | Karma: 17,23 | Přečteno: 229x | Diskuse| Fotoblogy

Jan Řeháček

Politické školení mužstva: Pyšná princezna

Roto končit! Pozor! (vejde útvarový politruk) Soudruzi vojáci, kapitál se potácí. Ale sám se nám na smetiště dějin nevypotácí. My mu musíme co, soudruzi? No? Nikdo? No, my mu musíme pomoci, vy hlavy hovězí!

31.12.2023 v 9:09 | Karma: 25,82 | Přečteno: 907x | Diskuse| Poezie a próza

Jan Řeháček

Ten podzim se nám hezky vybarvil

Každý podzim je v našem parku trochu jiný. Stromy, které by loni přešminkovaly i šestnáctku před prvním rande, jsou letos pobledlé jako Rusalka. A ty, které se zprvu barevně upejpaly, se najednou utrhly z řetězu. Jak řezníkův pes.

9.12.2023 v 9:09 | Karma: 19,07 | Přečteno: 322x | Diskuse| Fotoblogy

Jan Řeháček

Paroháčů je letos dost

Srnka je v našem parku jako houska na krámě. Zato setkání s jelenem si člověk musí považovat. Letos jsem ale náhodou objevil, kde se srocují: na záložním travnatém parkovišti, kterému se říká Gil's Hill, těsně před západem slunce.

9.11.2023 v 9:09 | Karma: 19,30 | Přečteno: 346x | Diskuse| Fotoblogy

Jan Řeháček

Chřadnoucí prales - pod vodou i nad ní

O korálovém útesu se říká, že je to "dešťový prales" oceánu. Biodiversita, kterou reprezentuje je ohromující. Totéž platí i o jeho suchozemském ekvivalentu. Bohužel, oba ekologické systémy se dostávají na seznam ohrožených druhů.

27.10.2023 v 9:09 | Karma: 14,00 | Přečteno: 261x | Diskuse| Životní prostředí a ekologie

Jan Řeháček

Letní kvítí

Primární sezónou květů je sice jaro, ale ani léto není v našem parku z pohledu barev úplná nuda. Tady je malá fotovonička složená z příspěvků místní flory. Aneb kdo nekvete s námi, kvete proti nám.

9.10.2023 v 9:09 | Karma: 17,88 | Přečteno: 191x | Diskuse| Fotoblogy

Jan Řeháček

Plody léta

Léto je časem zrání a ani v našem parku tomu není jinak. Zajímavé plody nabízí říše rostlinná i živočišná. Tady je malý průřez letošní nabídkou: asijské maliny, kuriózní houby a malí mývalové. Ceny jsou mírné: léto létá zdarma.

9.9.2023 v 9:09 | Karma: 16,17 | Přečteno: 308x | Diskuse| Fotoblogy

Jan Řeháček

Kvetoucí fuga (Beethoven)

V Beethovenově Misse Solemnis nalezneme spoustu skrytých drahokamů, které zde leží prakticky nepovšimnuty, protože celková hudební struktura této Mše je na první poslech naprosto neprůstřelná. Jedním z nich je fuga v závěru Creda.

27.8.2023 v 9:09 | Karma: 14,39 | Přečteno: 321x | Diskuse| Kultura

Jan Řeháček

Sovy a supi

V našem parku také poletuje spousta zajímavých ptáků. Tak jsem jich pár vyfotil. Sovy jsou sice nočními živočichy, ale na jaře se občas dají zastihnout i za denního světla. A za pár šupů k nim přihodím ještě pár supů. Ať nežeru.

9.8.2023 v 9:09 | Karma: 20,92 | Přečteno: 341x | Diskuse| Fotoblogy

Jan Řeháček

Vlčí západy

Při procházkách naším parkem občas fotím západy slunce z vyvýšeného travnatého parkoviště zvaného Gil's Hill. Říkám jim Vlčí západy. Jednak proto, že mají zhusta barvu vlčích máků a jednak proto, že náš park se jmenuje Vlčí past.

9.7.2023 v 9:09 | Karma: 16,96 | Přečteno: 344x | Diskuse| Fotoblogy

Jan Řeháček

Za devatero fotkami: Malebné peklo

Já to tušil, že jednou skončím v pekle. Jen jsem si představoval, že vstup bude mít z nějaké islandské sopky. Houbeles! Jeho vchod se nalézá poblíž vesničky Medkovy Kopce nedaleko Hlinska. "Lasciate ogne speranza, voi ch'intrate".

21.6.2023 v 9:09 | Karma: 19,13 | Přečteno: 368x | Diskuse| Fotoblogy

Jan Řeháček

Sedm divů jara

Po dlouhém barevném půstu zimní šedi působí návrat jarní kavalerie jako zjevení. V našem parku v tomto období kvete několik dřevin, s jejichž uměleckými kreacemi bych vás v tomto blogu rád seznámil. Matička příroda dokáže kouzlit.

9.6.2023 v 9:09 | Karma: 16,12 | Přečteno: 233x | Diskuse| Fotoblogy

Jan Řeháček

strž

V dnešním pokračování poetického cyklu "Bez básně a Hany" se nedozvíme jakou krevní skupinu mají nejraději novozélandští upíři a zda je tuna pampeliškového chmýří těžší než sbírka maturitních příkladů z matematiky.

29.5.2023 v 9:09 | Karma: 14,28 | Přečteno: 296x | Diskuse| Poezie a próza

Jan Řeháček

Devět zastavení času

Příroda se mění pomalu, ale jistě. Den ze dne nic nepostřehnete, ale když se na známá místa vrátíte za pár týdnů, naleznete desítky drobných změn. Tak jsem se na třech místech našeho parku devětkrát zastavil, abych je zachytil.

9.5.2023 v 9:09 | Karma: 16,36 | Přečteno: 295x | Diskuse| Fotoblogy

Jan Řeháček

Cesta do hlubin duše (Beethoven)

Lidská duše je odvěkou hádankou, na které si vylámaly zuby celé generace psychologů, teologů a filosofů. Tajuplný komplex uvnitř každého z nás. Pro mne je definicí lidské duše Beethovenův 14. smyčcový kvartet cis moll, op. 131.

30.4.2023 v 9:09 | Karma: 14,42 | Přečteno: 289x | Diskuse| Kultura
  • Počet článků 402
  • Celková karma 19,45
  • Průměrná čtenost 920x
Devátý nejhorší kuchař na světě, odpůrce politické překorektnělosti, začínající marťan, neúnavný konzument točeného kyslíku a jazykový dobrodruh ab incunabulis. Člen Analytického piva a Gustavu pro jazyk český. Správce Vojensko-českého slovníku.