Premium

Získejte všechny články
jen za 89 Kč/měsíc

Píší blogérky jinak než bloggeři?

Na počátku byl otazník. Tedy přesněji řečeno otázka zda ženy používají při psaní více otazníků než muži. Z ní poměrně rychle vyvstala sekundární otázka, zda ženy používají slovo "proč" častěji než muži - no a na problém bylo zaděláno. Když ho zformuluji co nejstručněji, mohl by znít takto: liší se četnost používání určitých slov (nebo znaků) mezi oběma pohlavími? A jelikož nejlepším řešením je empirický průzkum v terénu, rozhodl jsem se, že se záhadě podívám trochu na zoubek. Nechal jsem svůj počítač projet několik tisíc místních blogů a výsledky letní datové projížďky po vezdejším rybníčku jsou připojeny níže.

Protože blogy nemají přístupný kolektivní archív (alepoň o žádném nevím), omezil jsem se při zkoumání blogů na dobu zhruba od poloviny února do půlky července - dále jí budu říkat jen sledované období. Při vycucávání písmenek z blogů mi mezi prsty protékala celá řada zajímavých údajů - karma, délka blogu či čas publikace - a tak jsem se rozhodl ta data nejdřív trochu posmažit. Pokud Vás všeobecné statistiky nezajímají, klidně tu první obrázkovou sekci sakum-pikum přeskočte a vrhněte se hned na sekci druhou.

A bacha, používám desetinnou tečku, ne čárku.

1. Statistika

První dva obrázky jsou celkem jednoduché a ukazují průměrný počet blogů za hodinu (samozřejmě v rámci sledovaného období). Protože jsem si myslel, že bude velký rozdíl mezi všedními dny a víkendy, rozdělil jsem propočítání na tyto dvě kategorie, ale nakonec se ukázalo, že ten rozdíl zase tak veliký není. Ale aspoň jsem se dozvěděl, že průměrný počet blogů za den je zhruba 111.9 ve všední den a 78.4 o víkendu.

V průběhu dané hodiny se však blogy neobjevují rovnoměrně. V první minutě jich najdete většinou víc než později, protože mnozí bloggeři své příspěvky časují "na celou". Dobře je to vidět na následujícím obrázku který je v podstatě spojitou verzí předchozích. Pro každý čas na ose x z něho vyčtete (na ose y)  jaká je pravděpodobnost, že náhodně vybraný blog vyšel právě v tomto čase (je to svým způsobem spojitý histogram). Hlavně dopoledne je vidět, že na začátku každé hodiny pravděpodobnost prudce vzroste.

Teď se mrkneme na délku blogů. Tu budu měřit v počtu znaků (písmenek, mezer, interpunkce, číslic atd). V prvním grafu jsem seřadil všechny blogy podle délky (celkem jich bylo 16745) a výsledek vidíte na obrázku. Každý bod představuje jeden blog, délka je na ose y. Pro představu: solidní odstavec má zhruba tisíc znaků a blogy nad 10000 znaků jsou všeobecně považovány za dlouhé. Z obrázku ale vidíte, že takových blogů není mnoho (za sledované období jich bylo přesně 702).

Ten předchozí obrázek dobře ukazuje hlavně extremní hodnoty. Pro běžné blogy je lepší udělat z délky blogu náhodnou veličinu a použít opět spojitý histogram - tedy technicky: zobrazit hustotu pravděpodobnosti  této náhodné proměnné (probability density function). Na ose x je délka a na ose y pravděpodobnost, že se taková délka v blozích vyskytuje. Tady jasně vidíte, že naprostá většina bloggerů se snaží držet délku mezi 2000 a 5000 znaků. Blogů nad 5000 je jen 19.3% a blogů nad 10000 ještě méně, pouze 4.2%.

Další série se týká vztahu mezi karmou a délkou blogu. Všeobecně by se dalo očekávat, že kratší blogy budou mít výrazně vyšší karmu než ty delší či dlouhé, ale ukázalo se, že i poměrně dlouhé blogy mohou mít solidní karmu. Následující obrázek ukazuje délku i karmu všech 16745 zkoumaných blogů. Každý bod opět reprezentuje jeden blog ze sledovaného období. Délka je na ose x, karma na ose y.

Protože většina blogů se vejde do 20000 znaků (jak už jsme viděli výše), tak jsem udělal výřez této oblasti na následujícím obrázku, abychom do toho chumlu lépe viděli. Na něm si můžete všimnout, že i když pár "dlouhých" blogů má slušnou karmu, většina vysokokarmových blogů skutečně leží v oblasti 2000 až 5000 znaků.

Ještě jasněji to uvidíme, pokud si karmu zprůměrujeme. Následující obrázek je vytvořen takto. Pro každou délku (řekněme 2500 znaků) si udělám malý interval okolo ní (řekněme od 2200 do 2900) a pak vyberu všechny blogy, které se do této oblasti délkově vejdou a spočítám jim průměrnou karmu. Tu potom přiřadím zvolené délce (v našem případě 2500 znaků) a vzniklou dvojici čísel vynesu do grafu. A takhle to udělám s každou délkou. Takto způměrovaná karma se dá lépe číst a vidíte sami, že maximální průměrná karma existuje skutečně zhruba v oblasti kolem 3000 znaků.

V dalším grafu se zaměříme pouze na karmu. I na ni se mrkneme jako na náhodnou veličinu. Na ose x tedy uvidíme karmu a na ose y si odečteme jak je daná karma pravděpodobná. Z této křivky a nebo přímo z dat pak získáme další informace. Karmu nad 10 má 64.5% blogů, karmu nad 20 má 30.0%, karmu nad 30 už jen 13.3% a karmu nad 40 dosahuje pouze 2.8% blogů. Průměrná karma za sledované období je 16.2 s mediánem 13.1

Předposlední obrázek je podobný jako ten první. Je na něm průměrná karma podle času publikování. Karma je vpodstatě konstantní, takže pokud vám na ní záleží, je vcelku jedno, kdy svůj článek vypustíte do světa.

A nakonec něco o nás bloggerech. Za sledované období se v souboru vyskytlo celkem 1932 bloggerů.  Z nich 554 publikovalo pouze jeden blog, 281 jich napsalo dva a 179 má na kontě tři.  Tu poslední skupinu už vidíte v pravé části posledního obrázku (je to ten poslední "schod" - ten schod před tím jsou bloggeři se 4 blogy, ten předchozí pak bloggeři s pěti atd). Každý bodík grafu znázorňuje počet blogů jednoho autora či autorky.

Ta bílá "díra" na začátku odpovídá 17 bloggerům kteří sepsali 100 a více blogů za sledované období (na stovce jsem to uříznul, protože jinak by se ta hlavní skupina dala špatně rozlišit). Nicméně pokud Vás zajímá, kolik blogů těch prvních 17 borců vyprodukovalo, tady máte přesné počty: 283, 273, 257, 214, 214, 204, 168, 152, 137, 123, 121, 110, 110, 110, 110, 109, 103. V této hyperaktivní skupině jsou pouze dvě ženy (se 168 a 110 blogy). Zbytek jsou muži.

To, že muži jsou větší psavci vyplývá i z následujícího údaje. V této skupině blogerů (aktivních ve sledovaném období) je 1377 mužů, 537 žen a 18 nezařazených. Když se ale podíváte na celková čísla produktivity, zjistíte že muži napsali 12332 blogů a ženy pouze 3684. Mužů je zde tedy 2.56x více, ale sepsali 3.35x více blogů. Mimochodem, průměrná délka mužského slova (tedy slova v mužském blogu) je 5.130 písmenka, zatímco u žen to je 4.925 písmenka. Mužská slova jsou tedy v průměru zhruba o pětinu písmenka delší. No, ale nebudeme to rozmazávat - na délce přece nezáleží.

Jinak čísla z předchozího odstavce vám také poskytují obrázek jak statisticky relevantní je soubor blogů z něhož pochází data pro zbytek tohoto článku.

2. Muži-ženy (slova)

Ve srovnání s předchozí sekcí bude tato poměrně jednoduchá. Budu v ní sledovat četnost jednotlivých slov ve třech typech blogů: nejprve projedu všechny blogy, a pak muže a ženy zvlášť. Protože slov je hodně, jejich četnost je poměrně malá. I nejobvyklejší slovo (jímž je spojka "a") představuje pouze 3.4% všech slov. Proto budu v celé této sekci používat jako jednotku četnosti jednu setinu procenta. Pokud tedy chcete u nějakého slova získat procentní údaj o četnosti v souboru, vynásobte si uvedené číslo hodnotou 0.01 nebo vydělte 100.

V první tabulce budu sledovat četnost slov tak jak jsou napsána (tedy bez přidávání gramatických variant). Jsou to ostatně většinou slova nesklonná. Pro rozdíl mezi četností u mužů a u žen budu používat jednoduchý vzoreček: rozdíl = (muži - ženy)/vše. Jinými slovy - snažím se ten rozdíl trochu normalizovat, protože větší čísla plodí větší rozdíly. Tam kde tento normalizovaný rozdíl (v kladném či záporném smyslu) překročí určitou hranici, tam toto slovo obarvím modře (je-li častější u mužů) a nebo červeně (u žen). Z tabulky vidíte, že to inkriminované "proč" je sice mírně ženské, na červenou mu to ale nestačilo (hranici jsem stanovil na 0.1).

Mimochodem, při zpracování převádím všechno na malá písmena (jak, Jak i JAK jsou tedy ekvivalentní).

všeslovomužiženyrozdíl
34.056jak33.01237.630-0.136
13.326kde13.18913.793-0.045
11.029kdo11.5399.281+0.205
10.489kdy10.35110.959-0.058
9.662proč9.48310.277-0.082
10.005proto10.3598.797+0.156
3.303přesto3.3463.153+0.059
25.428nebo25.22226.134-0.036
14.943pak14.50416.443-0.130
53.647tak53.22555.093-0.035
40.771jako41.09639.656+0.035
0.917jakoby0.8291.219-0.425
2.999nějak2.7843.733-0.317
8.710bych8.23410.340-0.242
18.981ani18.78719.644-0.045
16.354než16.75914.968+0.110
13.74111.77520.471-0.633
10.989ty10.55112.492-0.177
4.810my4.8414.706+0.028
2.367vy2.2162.882-0.281
3.317myslím3.3763.114+0.079
0.529cítím0.3940.991-1.129
1.169vidím1.0651.523-0.392
2.284vím1.8283.845-0.883
2.999nevím2.6774.101-0.475
141.539je145.331128.554+0.119
19.706není20.34717.512+0.144
6.954musí7.3275.678+0.237
1.015nesmí1.0680.832+0.233
3.334naopak3.5672.539+0.308
2.182zároveň2.2701.881+0.178
5.048ovšem5.4863.545+0.385
9.998však10.7797.322+0.346
9.688třeba9.8039.295+0.052
6.228snad6.0596.809-0.121
3.167určitě3.1873.100+0.027
1.015údajně1.0720.817+0.251
5.628vlastně5.4716.166-0.124
2.408skoro2.1843.177-0.412
11.086asi10.46213.222-0.249
4.867trochu4.3426.664-0.477
7.097moc6.6438.652-0.283
2.200málo2.1732.292-0.054
3.400hodně3.1854.135-0.279
3.747úplně3.5814.314-0.196
6.984vůbec6.9537.090-0.020
4.043díky4.1113.811+0.074
2.846kvůli2.8752.747+0.045
2.123méně2.2501.688+0.265
7.861více8.5905.363+0.410
2.058rychle1.9272.505-0.281
1.574pomalu1.4452.017-0.363
5.421dobře5.1976.190-0.183
1.398špatně1.3741.480-0.075
5.071ano5.2294.527+0.139
11.920ne11.37113.797-0.204
1.093nikoli1.2470.566+0.623
1.486nikoliv1.5821.156+0.287
7.583EU8.8913.105+0.763
5.256USA6.5700.759+1.105
1.027OSN1.0930.798+0.288

Další tabulka je podobná, pouze budu u slov započítávat i gramatické varianty. Pokud je tedy sledované slovo třeba "vlk", tak ve větě "Vlk vlku člověkem" bude četnost "vlka" 66.6% (dvě třetiny, nikoliv jedna třetina). Tahle tabulka pochopitelně vypovídá spíš "o čem" se píše, než "jak" se píše. Slova jsem si vybral celkem náhodně a jako jednotku budu i nadále používat setiny procenta.

všeslovomužiženyrozdíl
1.421Sobotka1.7840.179+1.129
1.947Babiš2.3890.435+1.003
0.847Kalousek1.0520.145+1.071
0.500Havel0.6200.087+1.067
0.734Klaus0.8910.193+0.951
1.191Zeman1.4680.242+1.030
1.325Obama1.4440.919+0.396
6.152Putin5.4308.623-0.519
8.134práce7.40510.630-0.396
4.166rodina3.5516.272-0.653
11.372dítě8.37221.642-1.167
1.050sport1.1330.764+0.351
11.411strana12.8126.616+0.543
7.585vláda8.9472.921+0.795
7.194problém7.7005.460+0.311
4.940názor5.5492.858+0.545
3.703svoboda4.2291.901+0.629
2.521láska1.9344.531-1.030
8.604čas8.03610.548-0.292
1.864pes1.4413.313-1.004
0.931kočka0.6052.051-1.552
1.201ekonomika1.3720.619+0.626
4.819politika5.6911.833+0.801

V poslední tabulce této sekce definici slova ještě rozšířím. Kromě gramatických variant budu započítávat i slova významově podobná (a jejich gramatické varianty). Tím se ze slova vlastně udělá takové jednoduché "téma". Tak například slovo "ukrajina" jsem obohatil o výrazy "ukrajinec", "ukrajinka", "ukrajinský", "kyjev", "kyjevský" (plus jejich gramatické varianty). Téma "jídlo" v sobě zase zahrnuje i slova "kuchař", "kuchařka", "kuchyně", "vařit", "smažit" a pár dalších. Výběr doprovodných slov je samozřejmě ryze subjektivní, takže vám ukážu jen pár příkladů a pofrčíme dál.

všeslovomužiženyrozdíl
0.775pravice0.9250.261+0.857
0.683levice0.8180.222+0.871
20.781Ukrajina24.2468.918+0.738
14.555Česko16.8246.785+0.690
1.492umění1.4341.693-0.173
2.448jídlo1.6975.020-1.358
1.837turistika1.6412.505-0.470
7.910škola6.99711.036-0.511
2.745historie3.0191.809+0.441
17.114zákon19.4229.213+0.597
7.510válka8.5224.043+0.596

3. Muži-ženy (písmenka)

No, a konečně jsme se dostali k jádru pudla. Teď se tedy podíváme na četnost jednotlivých písmenek a některých dalších znaků (jako % nebo ?). Tak kdo si myslíte, že používá otazník častěji? Máte poslední šanci se zamyslet než vám vyjevím pravdu. Otazník jsem dal hned na začátek tabulky.

Protože písmenek je méně než slov, jejich četnost je poměrně velká a v této sekci budu tedy používat procenta (tak jak je známe ze školy). Všechny údaje níže jsou podobné jako v předchozí sekci, jenom budeme počítat písmenka místo slov. Protože některé znaky (třeba mezera) jsou špatně viditelné, obklopím každý znak dvěma hvězdičkami. Navíc Vám ukážu i kód znaku (code) v softvéru který používám. Většinou je to ASCII code.

V tabulce jsou nejdřív nealfanumerické znaky, pak číslice a nakonec písmenka.

(taky jsem pro znaky snížil hodnotu hranice pro genderové obarvení na 0.05)

všeznakcodemužiženyrozdíl
0.081630.0780.094-0.195
0.039330.0320.060-0.713
0.008370.0080.005+0.384
0.007420.0080.003+0.769
0.066400.0650.067-0.032
0.072410.0710.075-0.054
0.016950.0140.025-0.716
0.105450.1080.096+0.118
1.131461.1031.229-0.112
1.325441.2831.473-0.143
0.007590.0080.005+0.387
0.058580.0590.055+0.060
0.080340.0800.081-0.019
0.039470.0400.035+0.115
15.2333215.13115.593-0.030
0.096480.1020.076+0.272
0.087490.0910.074+0.195
0.058500.0620.044+0.307
0.032510.0340.028+0.176
0.033520.0340.030+0.095
0.031530.0320.026+0.190
0.021540.0220.018+0.163
0.020550.0210.016+0.221
0.023560.0250.020+0.214
0.038570.0420.027+0.370
5.582975.5245.787-0.047
1.7672251.7651.774-0.005
1.362981.3681.341+0.019
1.907991.9311.822+0.057
0.7322690.7290.742-0.017
2.9521002.9442.979-0.012
0.0242710.0230.026-0.125
6.4331016.4286.451-0.003
0.8702330.8890.803+0.098
1.3682831.3471.444-0.071
0.2121020.2180.189+0.137
0.2041030.2110.181+0.145
1.7251041.7241.729-0.003
3.6401053.6983.436+0.072
2.2642372.2772.219+0.026
1.9131061.8961.970-0.039
3.0271073.0303.018+0.004
3.3521083.3213.462-0.042
2.8471092.8142.966-0.053
5.1681105.2145.003+0.041
0.0453280.0450.045-0.000
6.4701116.5276.267+0.040
0.0142430.0140.016-0.165
2.5551122.5722.496+0.030
0.0031130.0030.003+0.031
2.7181142.7622.559+0.075
0.8463450.8430.857-0.016
3.7011153.7133.656+0.016
0.6753530.6670.701-0.051
4.5201164.5604.378+0.040
0.0393570.0380.042-0.099
2.5871172.5902.576+0.005
0.0952500.1000.079+0.220
0.3783670.3890.338+0.135
3.1801183.1923.138+0.017
0.0401190.0440.028+0.387
0.0481200.0510.040+0.219
1.4831211.4701.530-0.041
0.6522530.6650.608+0.088
1.5891221.6081.524+0.053
0.9473820.9261.021-0.100

A je to.

Autor: Jan Řeháček | středa 30.7.2014 9:09 | karma článku: 21,33 | přečteno: 829x
  • Další články autora

Jan Řeháček

Jaro: das ist nur die erste Phase

Jaro má v našem parku tři fáze, které jsem výstižně pojmenoval: první, druhá a třetí. Toto je svědectví o první z nich. Můžeme s ním nesouhlasit, můžeme proti němu protestovat, ale to je asi tak vše, co s tím můžeme dělat, Járo.

9.4.2024 v 9:09 | Karma: 16,67 | Přečteno: 425x | Diskuse| Fotoblogy

Jan Řeháček

A je po Velikonocích. A nejen po nich.

Globální kotlík zavěšený nad ohněm inkluze a diversity pomalu vytlačuje národní státy, vyrůstající ze sdíleného kulturního podhoubí. Tomuto trendu se nově přizpůsobuje i řada českých svátků s jejichž novelizací vás chci seznámit.

1.4.2024 v 9:09 | Karma: 21,16 | Přečteno: 460x | Diskuse| Společnost

Jan Řeháček

Impresionisté na hladině

Když se na podzim objevily barvy na stromech, všiml jsem si, že se občas zrcadlí v našem potoce či rybníčku. Tak jsem na ně zamířil objektiv a vyšly z toho roztěkané výtvarné kreace, za které by se nemusel stydět ani Claude Monet.

9.3.2024 v 9:09 | Karma: 22,50 | Přečteno: 325x | Diskuse| Fotoblogy

Jan Řeháček

AI Art: co už umí a co ještě ne

Loni jsem trochu experimentoval s malířskými schopnostmi tehdy nastupující generativní AI Art. Letos, za dlouhých zimních večerů jsem si na to vzpomněl a napadlo mne podívat se, jak moc za ten rok AI pokročila. Nu, posuďte sami.

15.2.2024 v 9:09 | Karma: 17,91 | Přečteno: 372x | Diskuse| Ostatní

Jan Řeháček

Není větvička jako větvička

Stromy a jejich rozeklaná větvoví jsou sochařská díla. V létě to ale nepoznáte, protože přírodní majstrštyky zakrývá koruna. Jakmile ale podzim povolá svá vojska zpět do zálohy, ladná elegance dřevěných křivek vystoupí do popředí.

9.2.2024 v 9:09 | Karma: 19,45 | Přečteno: 438x | Diskuse| Fotoblogy
  • Nejčtenější

Tři roky vězení. Soud Ferimu potvrdil trest za znásilnění, odvolání zamítl

22. dubna 2024,  aktualizováno  14:47

Městský soud v Praze potvrdil tříletý trest bývalému poslanci Dominiku Ferimu. Za znásilnění a...

Studentky rozrušila přednáška psycholožky, tři dívky skončily v nemocnici

25. dubna 2024  12:40,  aktualizováno  14:38

Na kutnohorské střední škole zasahovali záchranáři kvůli skupině rozrušených studentek. Dívky...

Takhle se mě dotýkal jen gynekolog. Fanynky PSG si stěžují na obtěžování

21. dubna 2024  16:37

Mnoho žen si po úterním fotbalovém utkání mezi PSG a Barcelonou postěžovalo na obtěžování ze strany...

Školu neznaly, myly se v potoce. Živořící děti v Hluboké vysvobodili až strážníci

22. dubna 2024  10:27

Otřesný případ odhalili strážníci z Hluboké nad Vltavou na Českobudějovicku. Při jedné z kontrol...

Prezident Petr Pavel se zranil v obličeji při střelbě ve zbrojovce

19. dubna 2024  15:44

Prezident Petr Pavel se při střelbě na střelnici v uherskobrodské České zbrojovce, kam zavítal...

Nejdřív spor o Green Deal. Sliby politiků pak převrátila umělá inteligence

26. dubna 2024  5:42,  aktualizováno  14:05

Tématu Green Dealu a jeho možné revize, se věnovali kandidáti pro volby do Evropského parlamentu v...

USA a Čína musí být partnery, řekl Si. Blinken mu vyčetl podporu Ruska

26. dubna 2024  13:10,  aktualizováno  13:45

Ve vztazích mezi Čínou a Spojenými státy zůstává mnoho problémů. Musí ale být spíše partnery než...

KOMENTÁŘ: Byrokracie s vízy? Přitvrdíme. Jak Česko zařízlo studenty z ciziny

26. dubna 2024

Premium Nenápadná úřední klička zásadně zkomplikovala život zahraničních studentů v Česku. Stát ještě...

Podvodník prodával falešné vstupenky na koncerty i sport, naletělo mu 500 lidí

26. dubna 2024  12:50

Falešné vstupenky na kulturní a sportovní akce nabízel na internetu muž z Uherskohradišťska, který...

Velvyslanectví Thajského království
Political, Cultural and Economic Affairs Assistant

Velvyslanectví Thajského království
Praha
nabízený plat: 34 310 - 39 458 Kč

  • Počet článků 402
  • Celková karma 19,54
  • Průměrná čtenost 920x
Devátý nejhorší kuchař na světě, odpůrce politické překorektnělosti, začínající marťan, neúnavný konzument točeného kyslíku a jazykový dobrodruh ab incunabulis. Člen Analytického piva a Gustavu pro jazyk český. Správce Vojensko-českého slovníku.