Premium

Získejte všechny články
jen za 89 Kč/měsíc

Tvrzení chrámu 5 (asociace)

(aneb čeština jako obranný val) V diskusi rozvířené lednovým útokem na Charlie Hebdo jsem zaslechl jeden zajímavý názor na nízkou oblibu České Republiky mezi nově příchozími žadateli o azyl.

Díky tomu, že mluvíme jedním z nejobtížnějších jazyků v Evropě, uprchlíci raději volí země s nějakou jednodušší řečí. Nevím, zda to autor myslel vážně - je jasné, že rozhodnutí o emigraci tam či onam podléhá i jiným kritériím než je obtížnost jazyka - ale v každém případě je to poetická představa. Zachmuřená Pramatka Čeština obchází šumavskými hvozdy a plíživé hordy přivandrovalců mlátí po hlavě nepravidelnými slovesy a shodou podmětu s přísudkem.

Ale vážně: ve srovnání s velkými světovými jazyky je naše mateřština téměř nedobytný hrad. Ruku na srdce - i my, rodilí mluvčí, občas při zteči narazíme čelem do trámu. A nejen když dumáme, zda bychom si do jablka sváru kousli či kousnuli a nebo zda naši básníci iluze ztrácí či ztrácejí. Kdo nikdy neudělal hrubku, nechť hodí Pravidly. A pro přespolní to platí dvojnásob. Kdysi jsem jednoho krajánka z Texasu učil česky a po této zkušenosti musím říci, že bych raději dyslektickému Eskymákovi vysvětlil základy diferenciálního počtu.

Nejenže se každý cizinec musí prosekat džunglí skloňovacích vzorů a časovacích tříd, ale musí se popasovat s dokonavostí, sem tam překousnout nějaký ten přechodník a nenechat se rozhodit poměrně volným slovosledem. A když to zvládne, může začít trénovat významový rozdíl mezi "syrovým" a "surovým" a taky mezi "tlustým" a "tučným" a při té příležitosti si rozmyslet, proč je pečeně libová, cvičenec hubený, ale frajer může být obojí. Hned v dalším kole si může zašpekulovat, proč jsou "mraky" hovorovou jednotkou množství, "houby" vyjádřením letmého zamítnutí a "kosa" ztělesněním mrazu. Ale opravdové dno zoufalství ho čeká při jazykovém rozboru namlouvání. To se takhle jednomu začnou "zapalovat lýtka" a když mu nějaká galánka "padne do oka", tak se do ní "zabouchne" a rozhodne se ji "sbalit" - po čase se s ní "zahodí" a galánka ho následně "utáhne na vařený nudli". Tak, a teď si tu větu, milý cizinče, přelož doslova a hloubej.

Ne, není to žádná procházka růžovým sadem ten náš jazyk vezdejší. Ale na mě nedejte. Poslechněte si, co o tom říká opravdový cizinec.

Norský novinář Terje Englund kdysi napsal knihu "The Czechs in a Nutshell", což je jakýsi manuál české kultury a reality pro cizince chystající se na delší pobyt v Česku. V kapitole věnované češtině Englund píše (str. 80):

"Let's start with the unambiguous verdict: Czech is the Rolls-Royce of the Slavonic languages, and a star player in the Indo-European linguistic league. Czech is so rich, precise and, unfortunately, also complicated that a foreigner trying to learn the language may be driven to suicide. Either because he or she never manages to learn it, or because of the utter depression that follows when the foreigner realizes how primitive his or her own mother tongue is."

Tato pasáž by se dala převést do češtiny zhruba takto:

"Začněme jednoznačným verdiktem: čeština je Rolls Royce mezi slovanskými jazyky a hvězdný hráč indoevropské lingvistické ligy. Čeština je tak bohatá, přesná a - bohužel - také komplikovaná, že cizinec, který se jí snaží naučit může být dohnán až k sebevraždě. Buď proto, že se nikdy nebude schopen jí naučit a nebo pro naprostou depresi, která bude následovat, když si uvědomí jak primitivní jeho vlastní mateřský jazyk je."

Pokud si tento královský klenot budeme chránit, tak on bude na oplátku chránit nás. Ne snad doslova s čakanem v ruce, ale spíš obrazně. Bude chránit náš duchovní prostor a naše kulturní dědictví. Ráj srdce, který hluboko v sobě pronášíme Labyrintem světa.

Datová pitva u Moháče (29. srpna 1526)

V dnešní pitvě si zahrajeme variantu dětské asociační hry. Určitě si na ni vzpomenete - paní učitelka řekne slovo, třeba rákosí, a žák vyhrkne první věc, která ho napadne (obvykle žabička). Hrát ji budeme tak, že si nejprve označíme všechny blogy, které obsahují nějaké slovo (nebo skupinu příbuzných slov) - takovým blogům budu říkat vzorek - a pak se podíváme jaká slova se v tomto vzorku vyskytují častěji než ve zbytku blogosféry. Budeme tedy lovit slova, která blogeři v souvislosti s danou slovní "návnadou" (která vzorek definuje) používají nejčastěji. Například pokud bychom zkoumali blogy obsahující slovo "banka", dalo by se očekávat, že v nich poměrně často nalezneme slova jako "úrok", "peníze" a nebo "dluží".

To poměrně budu kvantifikovat tak, že si spočítám četnost daného slova ve vzorku, pak četnost ve všech blozích a podíl těchto dvou čísel použiju k ohodnocení. Čím bude pro dané slovo tento podíl větší, tím bude to slovo pro vybraný vzorek blogů charakterističtější. V níže uvedených tabulkách Vám pro každý vzorek ukážu 20 nejcharakterističtějších slov (z analýzy jsem vyházel pouze slova s velmi nízkou nebo velmi vysokou frekvencí).

Pro vzorek bychom samozřejmě mohli použít i nějaké jiné kritérium - třeba všechny blogy publikované v určitém týdnu (dostali bychom tak trendující témata) a nebo všechny blogy publikované určitým autorem (tím bychom dostali autorské charakteristiky). K takovým hrátkám se možná vrátím někdy v budoucnosti.

Jako obvykle budou všechny frekvence (četnosti) uvedeny v setinách procent. Nalevo od slova najdete již zmíněné četnosti slova v daném vzorku (vzorek), ve všech blozích (vše) a samozřejmě především podíl těchto dvou veličin, podle kterého jsou slova seřazena. Je-li tento podíl řekněme 6.53, znamená to, že slovo se ve vzorku vyskytuje 6.53x častěji než v běžném textu (a bacha, používám desetinnou tečku!).

Napravo od slova najdete údaje o karmě. Nejprve průměrná karma v blozích našeho vzorku, které dané slovo obsahují (karmaS), pak v blozích které toto slovo neobsahují (karmaBez) a nakonec normalizovaný rozdíl těchto dvou čísel. Tam kde je tento rozdíl výrazně kladný, vyjadřují čtenáři svou libost nad nálezem slova ve vzorku (taková slova jsem obarvil modře), tam kde je rozdíl záporný, čtenáři naopak vyjadřují svou nelibost (a taková slova jsem obarvil červeně). Jinými slovy - modrá slova mají ve vzorku relativně vyšší karmu, zatímco červená ji mají menší.

(slova uvádím v tom tvaru v jakém byla nalezena - tedy nepřevádím je na základní tvar)

A hrátky začneme s osobami některých známých politiků. Takže tady jsou slova, která blogeři vyhrknou, když se řekne...

Vzorek: Sobotka

podílvševzorekslovokarmaSkarmaBezrozdíl
19.8420.0160.316fiskálního27.54323.189+0.043
15.3010.0691.049premiérovi24.02223.188+0.009
13.9240.0290.400lustračního20.25423.267-0.035
13.6570.0210.283respektovaný14.67323.252-0.113
12.9010.0180.233valorizace20.32423.242-0.033
12.5320.0130.167preferencích23.16123.229-0.001
12.4520.0410.516koaličních20.77623.292-0.029
12.3080.0150.183rozkrade30.90623.172+0.072
12.2260.0220.266neslušný26.69323.219+0.035
12.0500.0140.167řečnického29.58123.188+0.061
11.7490.0340.400eurokomisaře15.92823.350-0.094
10.9650.0210.233ministerské17.74023.294-0.068
10.7700.0170.183jmenováním19.55823.262-0.043
10.3420.0550.566schodek28.24723.140+0.050
9.8940.0200.200podpoříme26.70323.209+0.035
9.7650.0820.799lidovci21.27123.304-0.023
9.5730.0190.183sněmovních20.47623.254-0.032
9.4490.0330.316odboráři25.06923.213+0.019
9.3990.0210.200kostlivce21.21223.239-0.023
9.2150.0180.167sanace24.95423.217+0.018

Vzorek: Babiš

podílvševzorekslovokarmaSkarmaBezrozdíl
18.0470.0200.355audity27.07420.601+0.068
15.8980.0220.355biopaliv24.50220.637+0.043
15.2920.0701.065lustrační19.50520.704-0.015
15.2620.0110.170mandatorních23.18820.656+0.029
14.7090.0370.539celníků25.98420.640+0.057
14.4230.0270.383topka21.30720.665+0.008
14.0970.0190.270nevolte18.94720.683-0.022
14.0430.0520.724osvědčení19.77720.691-0.011
13.3550.0130.170schodkem28.25820.612+0.078
13.3550.0120.156etablovaných21.71020.668+0.012
13.3550.0160.213estébáky23.32120.644+0.030
12.8200.0130.170preferencích22.42920.661+0.021
12.7740.0120.156statutárních19.87720.678-0.010
12.6000.83710.548financí21.21320.406+0.010
12.4010.0150.185řepka24.08020.655+0.038
11.8710.0140.170koblihu23.15820.662+0.028
11.6130.0120.142developery10.33820.708-0.167
11.5740.0160.185magistrátní18.78520.677-0.024
11.4470.0190.213únikům21.55620.666+0.011
11.1290.0130.142makají24.74920.641+0.045

Vzorek: Zeman

podílvševzorekslovokarmaSkarmaBezrozdíl
13.8890.0160.229sprosťáky26.38923.262+0.031
13.7280.0120.168kundí35.87223.235+0.107
11.6730.0400.465hovorech28.92123.152+0.055
11.6180.0110.130rektorů22.57523.311-0.008
11.3730.0280.320prezidentův25.04023.276+0.018
11.3480.0230.259korunovačních24.55823.287+0.013
10.7640.0110.114vyznamenaných23.79523.304+0.005
10.5750.0200.214aeronet29.01823.271+0.055
10.3930.0150.160zemanovci23.52823.305+0.002
10.2960.0240.252klenotů23.76323.300+0.005
9.9360.0140.137křupan34.57823.237+0.098
9.5680.0220.214inkluze22.95523.309-0.004
9.5680.0160.153dalajlámu30.49123.255+0.067
9.5680.0320.305bonmoty24.48123.284+0.013
9.3290.0110.099prognostik27.19323.284+0.039
9.2590.0160.153vulgárním25.99823.284+0.028
9.1330.0230.214lumpáren26.37323.267+0.031
8.8650.0180.160neandrtálci29.29623.272+0.057
8.8320.0140.122tibetskou26.53523.290+0.033
8.6110.0130.114krtečka19.73323.327-0.042

Vzorek: Kalousek

podílvševzorekslovokarmaSkarmaBezrozdíl
41.3670.0120.484fízla25.90724.720+0.012
32.9730.0120.403imunitního23.80424.758-0.010
31.8030.0160.524sprosťáky27.10424.666+0.024
25.8540.0230.605lumpáren25.11724.731+0.004
24.6480.0110.262mlátička25.30924.737+0.006
23.4210.0180.423podivností26.14924.707+0.014
20.4760.0270.544topka22.52424.802-0.024
20.4180.0140.282křupan38.12124.593+0.108
19.8920.0320.645demografický28.31324.597+0.035
18.9600.0110.202vepřů27.30524.719+0.025
17.6370.0230.403vyženou29.72924.617+0.047
16.4320.0160.262kmotrům19.23224.836-0.064
15.8000.0130.202íčka13.63524.773-0.145
15.5570.0210.322respektovaný8.39524.786-0.247
14.7980.0220.322neslušný18.58024.761-0.071
13.5430.0150.202rozkrade31.41124.678+0.060
13.1890.0370.484celníků28.14024.728+0.032
12.6400.0380.484hulvát33.93524.485+0.081
12.6400.0180.222pultíku32.52624.657+0.069
12.2320.0160.202vnitro24.55424.747-0.002

A protože velkou pozornost na sebe v poslední době strhlo soužití různých kultur, přidám ještě čtyřlístek náboženství. Mimochodem, všimněte si, že i tento vcelku jednoduchý algoritmus dokáže rychle a hlavně automaticky vytipovat slova, která se k danému tématu (zde třeba náboženství) váží. Trochu vychytanější verze tohoto procesu se používá například při návrhu a implementaci různých expertních systémů a algoritmů z oblasti automatické extrakce vědomostí (knowledge extraction).

(seřazeno podle počtu věřících)

Vzorek: křesťané, křesťanství

podílvševzorekslovokarmaSkarmaBezrozdíl
10.9600.0260.285křižáci19.14419.098+0.001
10.1330.0200.205evangelií14.08119.166-0.076
10.1330.0190.189antinatalismus6.07519.110-0.259
9.7950.0160.156pohané17.60819.117-0.021
9.2890.0190.178potopě12.28519.154-0.109
9.1520.0160.151čarodějnictví27.13619.024+0.088
8.6850.0190.162biskupové17.94519.111-0.016
8.6430.0180.156misijní15.77719.125-0.048
8.4440.0290.242koncilu16.37419.134-0.039
8.4080.0250.210cizoložství22.00219.061+0.036
8.3450.0180.151ukřižován11.59119.181-0.123
8.3020.0440.366judaismus17.87119.126-0.017
8.2660.0200.167teologické21.17819.067+0.026
8.2330.0170.140katolickým22.28119.064+0.039
8.1560.0220.178náboženstvími20.34619.081+0.016
8.0770.0370.296kreacionisté12.74119.128-0.100
8.0540.0210.167proroky16.88519.118-0.031
7.8810.0240.189mučedníků19.16819.097+0.001
7.7690.0160.124protestantské18.56919.103-0.007
7.6650.0410.318apoštol13.78819.193-0.082

Vzorek: muslimové, islám

podílvševzorekslovokarmaSkarmaBezrozdíl
9.6420.0280.272islamofob31.42224.272+0.064
8.8970.0190.166nemuslimy32.31924.281+0.071
8.5590.0810.696džihád26.59924.284+0.023
8.4690.0180.149šaríja28.51424.333+0.040
8.4050.0300.255imám24.93424.362+0.006
8.3840.0210.178chalífátu22.01124.400-0.026
8.2010.0200.161bezvěrce26.11424.348+0.018
8.1330.0290.233neislámské30.21724.288+0.054
7.9850.0410.331zahalování26.12924.339+0.018
7.9850.0280.225tauhídu29.99524.307+0.052
7.9850.0230.183nevěřícími27.26024.334+0.028
7.9850.0190.149antinatalismus6.07524.382-0.301
7.9850.0180.140multikulturalistů30.64024.320+0.057
7.8480.0930.730mešit28.30624.177+0.039
7.8180.0260.199ramadán23.83724.375-0.006
7.7570.0190.144sunnitský20.48924.405-0.044
7.6720.0540.416kamenování33.38324.180+0.080
7.6320.0360.276odpadlictví28.34124.315+0.038
7.5990.0770.586umírnění29.40224.212+0.048
7.5860.0210.161xenofobové31.50324.295+0.065

Vzorek: buddhisté, buddhismus

podílvševzorekslovokarmaSkarmaBezrozdíl
52.1900.0422.192dalajláma21.23319.026+0.027
46.7230.0361.664vibrací12.16719.268-0.113
34.8070.0361.258tibetské23.81118.879+0.058
33.6850.0180.609perské13.29019.251-0.092
29.7960.0220.649mimozemské9.14519.262-0.178
28.0480.0260.731signálu8.51019.216-0.193
23.3300.0190.446šakti3.96019.238-0.329
20.0930.0300.609chrámů13.93719.458-0.083
18.5990.0410.771zahalování23.64618.984+0.055
18.2330.0360.649světlu7.29519.280-0.225
17.3530.0230.406vodopádu8.25019.380-0.201
15.7970.0310.487sekta24.97018.961+0.068
15.5820.0260.406božstva15.05819.330-0.062
14.1390.0430.609částice11.11319.283-0.134
13.9570.0490.690jednotného15.19019.184-0.058
13.1640.0310.406mniši13.79419.437-0.085
13.1080.1241.623civilizací21.73619.020+0.033
12.9530.0600.771dimenze12.41519.230-0.108
12.4940.1171.461očkování13.28019.193-0.091
11.9590.0440.528šátků25.50219.008+0.073

Vzorek: židé, židovství

podílvševzorekslovokarmaSkarmaBezrozdíl
12.3840.0260.316sionismus17.82421.155-0.043
12.1700.0310.375knesset16.58321.117-0.060
11.6760.0190.217synagog22.56421.085+0.017
11.1650.0320.362rabín20.51321.121-0.007
10.8890.0620.671antisemitismu24.00420.966+0.034
10.6640.0190.204transporty26.22521.036+0.055
9.8770.0450.441palestinského23.54821.038+0.028
9.7570.0180.171chrámová17.64621.140-0.045
9.5690.0350.336holokaustu20.58221.121-0.006
9.3810.0350.329izraelští21.74421.092+0.008
9.2880.0190.178potopě12.17321.172-0.135
8.4920.0190.158apartheid17.73821.132-0.044
8.4850.0290.244proroků17.29921.180-0.050
8.3590.0210.178osad20.19021.122-0.011
8.0490.0210.171nářků21.70821.102+0.007
8.0380.0300.244mesiáše11.74521.211-0.144
7.9120.0190.151zaslíbené10.22821.221-0.175
7.8530.0440.342koncentračního22.49221.073+0.016
7.5900.0160.125vysídlení25.31421.065+0.046
7.5780.0360.270pogromy17.26921.183-0.051

Závěrem ještě jednou zdůrazňuji, že výše uvedené je vypočteno z blogů za poslední rok. Je to tedy souhrn subjektivních pohledů a s objektivní realitou to nemusí mít nic společného.

Autor: Jan Řeháček | pondělí 9.2.2015 9:09 | karma článku: 21,00 | přečteno: 874x
  • Další články autora

Jan Řeháček

Jaro: das ist nur die erste Phase

Jaro má v našem parku tři fáze, které jsem výstižně pojmenoval: první, druhá a třetí. Toto je svědectví o první z nich. Můžeme s ním nesouhlasit, můžeme proti němu protestovat, ale to je asi tak vše, co s tím můžeme dělat, Járo.

9.4.2024 v 9:09 | Karma: 16,67 | Přečteno: 424x | Diskuse| Fotoblogy

Jan Řeháček

A je po Velikonocích. A nejen po nich.

Globální kotlík zavěšený nad ohněm inkluze a diversity pomalu vytlačuje národní státy, vyrůstající ze sdíleného kulturního podhoubí. Tomuto trendu se nově přizpůsobuje i řada českých svátků s jejichž novelizací vás chci seznámit.

1.4.2024 v 9:09 | Karma: 21,16 | Přečteno: 459x | Diskuse| Společnost

Jan Řeháček

Impresionisté na hladině

Když se na podzim objevily barvy na stromech, všiml jsem si, že se občas zrcadlí v našem potoce či rybníčku. Tak jsem na ně zamířil objektiv a vyšly z toho roztěkané výtvarné kreace, za které by se nemusel stydět ani Claude Monet.

9.3.2024 v 9:09 | Karma: 22,50 | Přečteno: 324x | Diskuse| Fotoblogy

Jan Řeháček

AI Art: co už umí a co ještě ne

Loni jsem trochu experimentoval s malířskými schopnostmi tehdy nastupující generativní AI Art. Letos, za dlouhých zimních večerů jsem si na to vzpomněl a napadlo mne podívat se, jak moc za ten rok AI pokročila. Nu, posuďte sami.

15.2.2024 v 9:09 | Karma: 17,91 | Přečteno: 372x | Diskuse| Ostatní

Jan Řeháček

Není větvička jako větvička

Stromy a jejich rozeklaná větvoví jsou sochařská díla. V létě to ale nepoznáte, protože přírodní majstrštyky zakrývá koruna. Jakmile ale podzim povolá svá vojska zpět do zálohy, ladná elegance dřevěných křivek vystoupí do popředí.

9.2.2024 v 9:09 | Karma: 19,45 | Přečteno: 438x | Diskuse| Fotoblogy
  • Nejčtenější

Tři roky vězení. Soud Ferimu potvrdil trest za znásilnění, odvolání zamítl

22. dubna 2024,  aktualizováno  14:47

Městský soud v Praze potvrdil tříletý trest bývalému poslanci Dominiku Ferimu. Za znásilnění a...

Moderní lichváři připravují o bydlení dlužníky i jejich příbuzné. Trik je snadný

18. dubna 2024

Premium Potřebujete rychle peníze, pár set tisíc korun a ta nabídka zní lákavě: do 24 hodin máte peníze na...

Takhle se mě dotýkal jen gynekolog. Fanynky PSG si stěžují na obtěžování

21. dubna 2024  16:37

Mnoho žen si po úterním fotbalovém utkání mezi PSG a Barcelonou postěžovalo na obtěžování ze strany...

Školu neznaly, myly se v potoce. Živořící děti v Hluboké vysvobodili až strážníci

22. dubna 2024  10:27

Otřesný případ odhalili strážníci z Hluboké nad Vltavou na Českobudějovicku. Při jedné z kontrol...

Prezident Petr Pavel se zranil v obličeji při střelbě ve zbrojovce

19. dubna 2024  15:44

Prezident Petr Pavel se při střelbě na střelnici v uherskobrodské České zbrojovce, kam zavítal...

Za znásilnění a pokus o vraždu patnáctileté dívky dostal Ukrajinec 19 let

24. dubna 2024,  aktualizováno  11:08

Krajský soud v Plzni odsoudil na devatenáct let Ukrajince Viktora Veselovského, který se loni v...

Noci zůstávají mrazivé. Ze čtvrtka na pátek spadne teplota pod nulu na celém území

24. dubna 2024  11:05

V nadcházejících dnech bude v ČR opět mrznout, v noci na čtvrtek budou podle ČHMÚ přízemní mrazíky...

Ředitel ČT považuje Etický panel za důležitý. Hledá nové členy

24. dubna 2024

Před Velikonocemi rezignovali členové Etického panelu České televize (ČT) kvůli sporům s ředitelem...

Rusové ostřelovali Charkov, Ukrajinci zasáhli ropné sklady u Smolenska

24. dubna 2024  8:33,  aktualizováno  10:59

Sledujeme online Rusko útočilo střelami S-300 na Charkov. Poničené jsou čtyři obytné budovy, oznámil starosta...

  • Počet článků 402
  • Celková karma 19,54
  • Průměrná čtenost 920x
Devátý nejhorší kuchař na světě, odpůrce politické překorektnělosti, začínající marťan, neúnavný konzument točeného kyslíku a jazykový dobrodruh ab incunabulis. Člen Analytického piva a Gustavu pro jazyk český. Správce Vojensko-českého slovníku.