Matykání: regrese a korelace - to se nasmějeme

9. 12. 2018 9:09:09
To takhle stojí devět čtverců před barem a jeden povídá: "Chlapi, opakujte po mně - stanu se menším a ještě menším, až budu nejmenším na celém světě". Kolem prochází kružítko a chvíli na ně kouká. "Zase nacvičujete regresi, co?"

Smutno je člověku samotnému a nejinak je tomu i pro matematické proměnné.

Vztah mezi dvěma (či více) deterministickými proměnnými zprostředkovává funkce. Vezměme si třeba volný pád. Označíme-li si dráhu padajícího tělesa proměnnou s a dobu po kterou padá proměnnou t, bude mezi nimi platit vztah s=gt²/2, ať pustíme dolů hliněnou kuličku nebo skleněnku (odpor vzduchu zanedbáme). To znamená, že známe-li jednu z proměnných, můžeme tu druhou dopočítat.

I u náhodných proměnných nás nezajímá jen jaké mají rozdělení (a tedy jaké hodnoty od nich můžeme očekávat a s jakou pravděpodobností), ale také zda jsou mezi nimi nějaké smysluplné vztahy.

Pochopitelně nemůžeme očekávat stoprocentně fungující funkce, kde dostaneme vždy stejný výsledek, pokud dosadíme stejné číslo. V náhodných proměnných řádí chaotický šotek, takže se budeme muset spokojit se statistickou interpretací - to co nám vyjde, bude platit pouze "v průměru".

Jaký typ vztahu mezi náhodnými proměnnými existuje se dozvíme z regrese, zatímco korelace nám prozradí do jaké míry se na tento vztah můžeme spolehnout.

+++++++++

Regrese teoretická

V minulých Matykáních jsme viděli, že náhodné proměnné jsou jakousi směsicí nahodilého a zákonitého. Tomuto základnímu paradigmatu podléhají i vztahy mezi nimi.

Zatímco relace mezi normálními deterministickými veličinami (tedy funkce) jsou obvykle hladké křivky, vztahy mezi náhodnými veličinami vypadají jako byste podél stezičky rozsypali rýži - s tím, že čím více se vám třese ruka, tím více je v daném vztahu nahodilosti.

Podívejme se na konkrétní případ - dvěma náhodnými veličinami v něm budou výška a váha náhodně vybraného jedince.

Intuitivně je jasné, že tyto dvě veličiny spolu nějakým způsobem souvisí. Obecně platí, že čím je člověk vyšší, tím je těžší. Není to ovšem jednoduchý a jednoznačný výpočet (jako při volném pádu). Když mi řeknete, kolik měříte, v žádném případě z toho vaši váhu nevycucám. Ve hře je spousta dalších skrytých faktorů - jak intenzivně sportujete, zda vám chutná sladké, jaké máte genetické předpoklady atd. Proto nejlepší v co můžeme doufat, je odhad (popřípadě pravděpodobnost, že skutečná váha bude v určitém rozmezí).

Na obrázku vlevo vidíte výšku h a váhu m pro vzorek 400 náhodně vybraných jedinců. Datové body nejsou po definičním oboru rozházené úplně náhodně, ale v souladu s naším očekáváním vykazují v hrubých rysech přímou úměru. Přesněji - jsou rozházené podél určité přímky (červené), která se pokouší tu nahodilost z dat vyždímat a nahradit ji obecným trendem, odrážejícím průměrné vlastnosti souboru (a v tomto případě i jisté biologické zákonitosti). Pro každý rozumný vzorek dvou náhodných proměnných se taková přímka dá najít explicitně metodou nejmenších čtverců.

Především je jasné, že tu závislost mezi výškou a váhou nezjistíme tak, že si vybereme dva náhodné body a proložíme jimi přímku. Takových přímek by bylo tolik, kolik je v datovém souboru dvojic a navíc by se jedna od druhé výrazně lišily.

Ta červená aproximační přímka musí záviset na vlastnostech celého souboru. Budeme-li hledat její rovnici ve směrnicovém tvaru y=a+b*x, kde a je průsečík s osou y a b je směrnice přímky, oba parametry musí nějak odrážet hodnoty všech bodů v souboru.

Princip, jak se taková čísla (parametry) najdou je vcelku jednoduchý.

Pro libovolnou přímku y=a+b*x (ať optimální nebo ne) si můžeme spočítat souhrnnou odchylku datových bodů od ní a pokusit se ji minimalizovat. Nejprve pro každý datový bod (xi, yi) vyčíslíme rozdíl mezi naměřenou (pozorovanou) hodnotou yi a "očekávanou" hodnotou yi° (tedy y-ovou hodnotou, kterou bychom pro dané xi obdrželi na přímce: yi° = a+b*xi). Těmto dílčím rozdílům yi - yi° se říká "rezidua" nebo "reziduály" (v pravé části předchozího obrázku jsou naznačena zelenými a oranžovými úsečkami) a pokud jejich čtverce posčítáme přes všechny body (proto je ve vzorečku to sigma), dostaneme celkovou odchylku pro minimalizaci:

odchylka = Σ (yi - yi°)² = Σ (yi - a - b*xi)²

Když si to rozmyslíte, zjistíte, že v tom vzorečku jsou dvě neznámé (a,b) a vše ostatní už jsou konkretní čísla z datového souboru. Protože chceme najít přímku, která daný datový soubor nejlépe aproximuje, budeme její parametry (a,b) hledat tak, aby ta celková odchylka byla co nejmenší. Hledáme tedy přímku y=a+b*x, která minimalizuje součet čtverců ve vzorečku pro odchylku (odtud název metody). Na technické podrobnosti se podíváme v sekci Jauvajs.

Tomuto procesu se říká regrese a jejím výsledkem je (červená) regresní přímka, která se v praxi používá pro predikci hodnot y, známe-li hodnoty x. Budete-li například dlouhodobě sledovat, jak vaše tržby (y) závisí na prostředcích vložených do reklamy (x), můžete si po nasbírání dostatečného množství dat sestavit regresní přímku (lineární model) a ta vám umožní odhadnout, jak velké tržby y můžete očekávat pro dané reklamní výdaje x.

Ta kouzelná minimalizující přímka má navíc jednu zajímavou vlastnost: kladná a záporná rezidua jsou pro ni v přesné rovnováze. To tedy znamená - jak asi očekáváte - že pro regresní přímku je součet délek těch zelených úseček (na předchozím obrázku vpravo) stejný jako těch oranžových.

Koumavý čtenář si teď možná pomyslí, proč se ve vzorečku pro celkovou odchylku vůbec babráme s těmi (ne příliš pohodlnými) čtverci. Proč tu regresní přímku nenajdeme rovnou tak, že zjistíme, kde se kladná rezidua (bez čtverců) vyruší s těmi zápornými.

Důvod je patrný z obrázku vpravo. Ta rovnováha reziduí sama o sobě nestačí. Vezmeme si libovolnou přímku a budeme ji pomalu posunovat shora dolů tak, aby měla stále stejný směr. V pozici (a) mají převahu záporná rezidua (většina bodů je pod přímkou), v pozici (c) kladná a ze spojitosti je tudíž jasné, že někde zhruba v půli cesty (b) se rezidua vyrovnají. Přesto ta přímka v pozici (b) daný datový soubor aproximuje velmi špatně. To, že se kladné odchylky vyruší se zápornými se dá zařídit triviálně pro každou přímku (jak jsme právě viděli). My potřebujeme něco víc - minimalizovat jejich čtverce. Ty se navzájem nezruší, protože jsou všechny kladné.

Nebo jinak (a trochu zjednodušeně): kvadratická funkce má na rozdíl od lineární tu výhodu, že je konvexní a tudíž se na ní dá najít extrém. K jsou ty čtverce dobré.

++++++

Regrese praktická

Abychom ale nezabloudili příliš hluboko do džungle teoretické statistiky, podíváme se na pár regresních příkladů, kdy je mezi dvěma náhodnými proměnnými zhruba lineární vztah.

První příklad bude diskrétní.

Vezměme si délku článku z (ve znacích) na blogu iDnes a četnost p některých obecných slov - jako je například spojka "a", předložka "na" nebo sloveso "jsem". Čím je článek delší, tím víc sledovaných slov by měl obsahovat (obrázek vpravo).

Ovšem stejně jako v první ukázce (výška/váha) nedostaneme přesnou závislost. Někdo používá spojku "a" o něco více, někdo o něco méně. Když si ale sestrojíte regresní přímku, dostanete pro její četnost poměrně obstojný odhad y=3.58+0.005z (kde z je počet znaků daného článku). Ta směrnice v tomto případě zhruba odpovídá průměrné hustotě spojky "a" v textu.

Všimněte si také, že ta rezidua (vertikální vzdálenosti jednotlivých bodů od regresní přímky) se zde zvětšují se zvyšujícím se počtem znaků. Tento efekt je jedním z předmětů reziduální analýzy a hraje důležitou roli při statistickém modelování náhodných procesů.

I předložka "na" (prostřední obrázek) ještě vykazuje poměrně viditelnou závislost na délce textu, ale u slovesa "jsem" už je regresní analýza trochu vošajslich. Někteří dokáží i do relativně krátkého článku (vlevo nahoře) nacpat 15-20 "jsem", zatímco jiní se bez tohoto slova obejdou i u článků nad 10k znaků (vidíte je jako tečky podél osy x, kde je četnost slova "jsem" rovna nule). Tady už je ten lineární vztah zcela rozmělněn náhodnými vlivy (individuální styl blogera) a regrese v podstatě pozbývá smyslu.

Ten poslední příklad jen podtrhuje důležitost vizuální inspekce při práci s daty. Nestačí jen spočítat regresi, pár průměrů a nějakou tu odchylku. Reálná data jsou komplexní a mnohovrstevnatý objekt a zredukovat je pouze na pár skalárů může zakrýt jejich skutečnou "podstatu". Anglický statistik Francis Anscombe sestavil v roce 1973 zajímavou čtveřici datových souborů, nazvanou po něm Anscombův kvartet, která má ty základní statistické parametry (regresní přímka, průměry a směrodatné odchylky) stejné, přestože postihuje zcela jiné typy závislostí. Každému zájemci o statistické zpracování dat doporučuji se s tímto neobvyklým příkladem seznámit.

+++++++++

Druhý příklad bude spojitý a vypůjčím si ho z analýzy akciových trhů.

Po skončení každého obchodovacího dne vykazují akcie (a indexy - tedy soubory akcií) určitý procentuální vzestup nebo pokles.

Tyto jdou obvykle ruku v ruce - tedy pokud index vzroste, vzroste i většina akcií v něm a naopak. Každá firma (zastoupená svými akciemi) má ovšem svůj vlastní osud a ten se může v jedotlivostech lišit od makroekonomického chování indexu (nebo ostatních akcií). Vyhodili ředitele, dodavatel jim vypověděl smlouvu, dostali nečekanou vládní zakázku, myši jim přehryzaly klíčové kabely atd.

Na dalším obrázku je každý den na burze znázorněn jedním bodem, jehož x-ová složka ukazuje procentuální vzestup (či propad) nějakého indexu a y-ová složka totéž pro konkretní zvolenou firmu.

V levé části najdete na ose x fond QQQ (což je v podstatě výběr technologického indexu Nasdaq) versus počítačová firma IBM na ose y. V pravé je pak indexový fond SPY (výběr S&P500) versus akcie banky JPMorgan.

Vidíte, že ve většině připadů se ceny vybraných akcií pohybují s indexem, ale občas se chování většiny vzepřou a vyrazí si opačným směrem (body v severozápadním a jihovýchodním kvadrantu).

Tento způsob analýzy se hojně využívá při vyhodnocování úspěšnosti podílových fondů. Jejich procentuální výsledky (obvykle za měsíc nebo za kvartál) se v porovnání s vhodným indexem vynesou do grafu a regresní přímka nám potom ukáže průměrnou výkonnost fondu.

V její rovnici y=α+βx je beta obvykle indikátorem volatility (těkavosti). Vidíte, že IBM ho má o něco větší než stará zavedená banka JPM. Čím je to beta vyšší, tím více sebou daná akcie hází, v porovnání s indexem (její pohyby jsou bouřlivější). U podílových fondů se beta dá uměle navýšit například větší našponovaností (leverage) - tedy de facto tím, že si na své investování půjčíte. Proto se většina manažerů při hodnocení dívá raději na alfa. To regresní beta tu přímku de fakto jen pootočí (máte sice větší vzestupy, ale také větší propady), zatímco alfa ji celou popostrčí. V tom případě nejsou výsledky podílového fondu jen násobkem pohybu indexu, ale (v případě kladného alfa) reprezentují přidanou hodnotu vyplývající ze zkušeností manažera.

Ve finanční hantýrce je alfa tak trochu synonymem investorských schopností. Proto se jeden z nejznámějších blogů pro individuální investory jmenuje Seeking Alpha. Pokud vás to zajímá hlouběji, mrkněte se sem (matematický výklad) anebo sem (investiční úhel pohledu).

+++++++++

Regrese obecná

Regresní přímka je báječná věc, ale má dvě vady na kráse. Za prvé ne všechny vztahy mezi proměnnými (ať náhodnými nebo deterministickými) jsou lineární. A za druhé, u složitějších problémů může závislá proměnná y záviset na více proměnných x. V obou případech se regrese dá naštěstí celkem přirozeně zobecnit.

Představme si, že pracujeme v jabloňovém sadu a vyhodnocujeme produktivitu trhačů. Každý pracuje h hodin (osa x) a za tuto dobu natrhá k košíků jablek (osa y). Jejich výsledky vidíte na obrázku vpravo. Každý zelený bod reprezentuje jednoho trhače (někteří pracují jen chvilku a někteří takřka celý den).

Samozřejmě nám nic nebrání nasadit lineární regresi a najít přímku, která daná data nejlépe aproximuje, ale z vrchního obrázku vidíte, že zatímco uprostřed je většina bodů nad přímkou, na okrajích je většina pod ní a to často indikuje, že hledaná závislost nebude tak úplně lineární jak si myslíme.

Jaký typ nelinearity pro popis zvolit je nejtěžší část problému a do značné míry závisí na zkušenosti analytika. Obvykle se snažíme vyjít z nějaké množiny funkcí, která obsahuje několik volitelných parametrů a ty potom ladíme pomocí nelineární regrese - opět se snažíme minimalizovat součet čtverců vzniklých reziduí. Tady už jsou ale algoritmy podstatně komplikovanější než u lineárního případu a parametry za vás obvykle najde nějaký softvér (u přímky si je můžete spočítat sami - jak za chvíli uvidíme).

V tomto konkretním případě budu hledat aproximující funkci ve tvaru násobku obecné mocniny y=a*x^b (mimochodem, když si vezmete logaritmus obou stran, zjistíte, že je to vlastně lineární regrese v logaritmických souřadnicích). Nalezené optimum (parametry: a=2, b=0.5) vidíte na prostředním obrázku vpravo .

K čemu je taková funkce dobrá?

Například k vyhodnocení nejúčinnějších sběračů.

Já vím - mohli byste sběrače prostě oznámkovat podle celkového počtu košíků, ale asi cítíte, že to není úplně spravedlivé vůči těm, kdo se zdrželi jen pár hodin. Ti toho sice nenasbírali tolik, jako kdyby makali celý den, ale klidně mohli být produktivnější. Chceme-li ohodnotit efektivitu, musíme na to jinak.

Ta regresní křivka nám ukazuje, kolik košíků by měl v průměru nasbírat trhač pracující h hodin. Pro každého tedy poměříme jeho konkretní počet košíků k s počtem předpovězeným regresní křivkou a jejich rozdíl nám dá výsledné hodnocení (spodní část obrázku). Lidově řečeno: ti, kdo jsou nad regresní křivkou jsou šikulkové (v červeném), zatímco ti pod ní (v modrém) by se měli polepšit.

Zdroje nelinearity mohou být rozličné. V tomto případě je důvodem únava. Natrháte-li za první hodinu k košíků, neznamená to, že po 5 hodinách jich budete mít 5k. Člověk není robot. Podobnou křivku byste dostali, kdybyste si vynesli světové rekordy v běhu na X metrů. Zaběhnete-li stovku za 10 vteřin, neznamená to, že kilometr zaběhnete za 100 vteřin. Už na čtyřstovce uvidíte, že ta křivka trochu "uvadá".

+++++++++

(zbytek této sekce můžete přeskočit)

Máte-li nezávislých proměnných několik, budete se muset seznámit s mnohonásobnou regresí, která je více dimensionální verzí té jednoduché. K disposici budeme mít m datových sad (bodů) obsahujících n+1 čísel (x1,x2,...,xn,y) a zajímat nás bude vztah mezi y a všemi těmi xn. Opět se pokusíme minimalizovat celkovou chybu, které se dopustíme, pokud empirické hodnoty y z datového souboru nahradíme hodnotami získanými z pravé strany následující rovnice.

y = a0 + a1*x1 + a2*x2 + ... + an*xn

(pozor, tady má ten index n trochu jiný význam než v teoretické sekci - tam nám označkoval jednotlivá měření jedné veličiny x, zatímco zde značí n-tou komponentu jednoho více-složkového měření)

Stejně jako u jednoduché regrese se pokoušíme aproximovat hodnotu y vhodnou lineární kombinací naměřených (či zjištěných) hodnot xn. Výsledkem tohoto procesu nebude přímka, ale nadrovina popisující nejpravděpodobnější vztah mezi y a x1,...,xn. Získané koeficienty an pak udávají, jaký je vliv n-té nezávislé proměnné xn na odhadovanou hodnotu y (jsou to de facto vícedimensionální ekvivalenty směrnice - jinak též normála příslušné nadroviny). Protože většina reálných problémů závisí na více proměnných, multiregrese představuje základ tradičně používaných statistických modelů.

Klasickým multiregresním problémem, který se dá považovat za zlatý standard internetových příruček je problém odhadnutí ceny Bostonských domků (y) na základě 13 nezávislých proměnných (x1,...x13), kterými jsou mimo jiné míra kriminality, výška daní z nemovitostí, koncentrace kysličníku dusičného, počet místností na dům, poměr žáků a učitelů v dané lokalitě a pár dalších. Data jsou veřejně dostupná (celkem 506 sad) a kuchařku k tomuto problému v jazyce Python naleznete zde.

U multi-dimensionální regrese se někdy stane, že spočítané parametry a0,a1...an vyjdou "divoce" (jsou to příliš velká čísla, která způsobují, že modely pak předpovídají hodnoty ode zdi ke zdi). V takových případech se při hledání optima současně minimalizuje souhrnná velikost těchto parametrů. Tomuto postupu se obecně říká regularizace a v kontextu regrese se k nejznámějším regularizačním algoritmům řadí buď tzv. "Lasso regression" anebo "Ridge regression" (liší se od sebe tím, jak definujete "velikost" parametrického vektoru).

+++++++++

Korelace

Zatím jsme se bavili převážně o tom, jak tu regresní přímku (či křivku nebo nadrovinu) najít. Jakmile ji máme, můžeme z vybraných hodnot x začít předpovídat hodnoty y. Jak bude ta předpověď kvalitní závisí na tom, jak těsně se původní data k regresní přímce přimykají. Kvantitě, která úspěšnost aproximace měří, se říká korelace (hodnot x a y).

Na dalším obrázku jsou dva soubory dat, jejichž regresní přímka je v podstatě stejná (zhruba y=1+x/2). To v čem se ty datové soubory liší je "rozptyl" bodů podél regresní přímky. Body vlevo se od ní odchylují podstatně méně, což znamená, že náhodné proměnné x a y mají v tomto případě lepší korelaci.

Korelace dvou náhodných proměnných tedy ukazuje, do jaké míry se změny jedné z veličin dají odvodit ze změn té druhé - zda obě rostou či klesají tak říkajíc ruku v ruce anebo zda jsou jejich změny víceméně nezávislé.

Protože míra korelace nás často zajímá víc než typ regresní závislosti, existuje pro ni explicitní vzoreček, který nemusíte ždímat z regresního softvéru.

Mějme tedy dvě náhodné proměnné X a Y, realizované jako n bodů:

data = (x1,y1), (x2,y2), (x3,y3), ... (xn,yn)

Korelace mezi X a Y v tomto vzorku pak bude:

r = (Σ (xi - mx) * (yi - my)) / ((n-1) * sx * sy)

kde mx a my jsou průměry hodnot xi a yi, zatímco sx a sy jsou jejich směrodatné odchylky (sigma opět značí sumu přes všechny hodnoty i).

Číslo r leží mezi -1 a 1 a říká se mu Pearsonův korelační koeficient. Pokud je kladný, pak nárůst x odpovídá nárůstu y. Je-li záporný, tak se y s rostoucím x naopak zmenšuje (statisticky vzato). Čím je toto číslo v absolutní hodnotě blíž jedničce, tím je synchronizace mezi pohybem x a y přesnější. Abyste to dostali "do ruky", můžete se podívat na tabulku několika datových souborů s vyznačenou korelací (na prostředním řádku vidíte, že korelace je "slepá" k typu závislosti, tedy k tomu jak rychle regresní přímka roste - zajímá ji pouze jak moc se od ní data odchylují).

Podívejme se na malý příklad (pět hodnot pro každou proměnnou)

X = (1,2,3,2,1)
Y = (3,5,7,5,3)

Koeficient korelace mezi X a Y bude v tomto případě jednička (perfektní skóre)

r(X,Y) = 1

protože oba soubory rostou nebo klesají synchronizovaně. Zda Y roste dvakrát nebo třikrát rychleji než X je vcelku jedno (zkuste si třeba Y=(2,5,8,5,2), pořád jednička). To odpovídá předchozí poznámce o "slepé" korelaci - když si ty body (X,Y) vynesete do grafu, uvidíte přesnou přímku. Pokud ale změníte Y na (3,5,7,5,2) dostanete r(X,Y)=0.981. Korelace bude trochu menší, protože růst X a Y už nejde přesně ruku v ruce.

Protože ve většině případů nás zajímá jen jak je vztah silný (a ne zda se obě proměnné pohybují souběžně či protiběžně), často se jako hodnota korelace uvádí r² (er kvadrát), což je pak číslo mezi 0 (žádná závislost) a 1 (perfektní závislost). Pro ilustraci: na tom úvodním obrázku má "lepší korelace" hodnotu r²=0.97 a ta "horší" r²=0.69.

Závěrem této podsekce malý detail. Zatímco u regrese zhusta platí, že hodnota X je nezávisle volená a hodnota Y pak na ní nějakým způsobem závisí, korelační koeficient nám pouze ukazuje míru souvztažnosti obou proměnných a obecně se z něho nedá odvodit žádná kauzalita (příčinnost). Vezměme si třeba počet zasahujících hasičů při požáru versus vyčíslená škoda. Mezi těmito dvěma veličinami bude pravděpodobně velmi solidní korelace, ale z ní nemůžeme usoudit, že vyšší počet hasičů způsobuje vyšší škodu. To by nám hasiči dali! Ta korelace v tomto případě znamená, že obě proměnné prostě závisí na intenzitě požáru.

+++++++++

Literární shrnutí: Nelítostné odpolední slunce bušilo všemi paprsky do kaktusových plání obklopujících arizonské městečko Silver Creek. Uprostřed zaprášené ulice stál Krvavý Džejk v plátěné košili a ocelovým pohledem si přeměřoval neznámého desperáta pomalu se sunoucího směrem k němu. Ve vzdálenosti 50 stop se nedbale oblečený kovboj zastavil. Oba muži počali zlověstně mhouřit oči jako by se pokoušeli překonat letitý rekord Charlese Bronsona. Na stříšce saloonu "U bídného kojota" seděli dva supi a s nelíčeným profesionálním zájmem scénku pozorovali. "Vaše kalkulačky visí proklatě nízko, cizinče", zahájil konverzaci Džejk. Neznámý muž mlčel a soustředěně žvýkal hrudku tabáku. Džejk zúžil štěrbinu mezi víčky tak, že by jí neprolétlo ani zrnko písku ze Sonorské pouště. "Zjistil jsem, že existuje pozoruhodná korelace mezi počtem ztracených koní a délkami vašich návštěv v našem městečku", procedil mezi zuby. Cizincovy ruce se instinktivně přiblížily ke dvěma výpočetním strojům zavěšeným v koženém pouzdře u pasu: "Soudím, že ta korelace nebude víc než 0.3". I Džejk spustil ruce ke dvěma ohmataným kalkulačkám značky Casio a jeho prsty se začaly ve vzduchu nedočkavě komíhat. Desperát tasil jako první a oba muži se pustili do horečného počítání. "Mám to!" vyrazil vítězoslavně Džejk. "R kvadrát je 0.96!" - a s těmito slovy vytáhl z náprsni kapsy revolver a naládoval do zkoprnělého padoucha takové množství olova, že by si z něj zručná myš lehce vyrobila radiační izolaci v atomovém bunkru. Džejk byl tvrdý chlap - vždy nejprve střílel a teprve pak si kladl otázku, zda korelace implikuje příčinu. Supům na stříšce to bylo srdečně jedno.

+++++++++

Sekce jauvajs: metoda nejmenších čtverců

jen pro otrlé povahy

Jak si tedy lze tu regresní přímku spočítat přímo z dat?

Nejprve si označíme n bodů

data = (x1,y1), (x2,y2), ... (xn,yn)

a přímku budeme hledat ve směrnicovém tvaru y=a+bx.

Výše jsme si řekli, že chceme minimalizovat celkovou odchylku o:

o(a,b) = Σ (yi - yi°)² = Σ (yi - a - b*xi)²

kde yi° je bod na hledané přímce odpovídající hodnotě xi (tj. yi° = a+b*xi).

U odchylky o jsem tentokrát explicitně vyznačil, že závisí na dvou neznámých číslech a,b (průsečík a směrnice). Vše ostatní v tom vzorečku jsou konkretní zadaná čísla. Na tu odchylku se tedy můžeme dívat jako na funkci dvou proměnných a o nich je známo, že většinou nabývají extrému tam, kde je derivace podle obou proměnných rovná nule (zhruba platí, že tam kde má funkce extrém, je tečna ke grafu funkce rovnoběžná s osou x - a funkce tam tedy má nulovou derivaci). Jen budeme muset derivovat parciálně (není to nic těžkého, prostě se na tu druhou proměnnou budeme vždy dívat jako na konstantu). To, co nám vyjde, položíme rovno 0:

∂o/∂a = -2 Σ (yi - a - b*xi) = 0

∂o/∂b = -2xi Σ (yi - a - b*xi) = 0

(to smetí před Σ pochází z derivace vnitřní funkce podle příslušné proměnné)

Tohle vypadá na první pohled děsivě, ale protože všechna čísla xi a yi jsou známá, ty formulky nejsou nic jiného než dvě lineární rovnice pro dvě neznámé a a b. Ty vyřešíme (trochu se u toho zapotíme) a vyjdou nám explicitní vztahy pro a a b (kdo si to chce zkusit nanečisto, může juknout sem):

b = (n Σxi*yi - Σxi Σyi) / (n Σxi² - (Σxi)²)

a = (Σyi - b* Σxi) / n

a na pravé straně máme už jen různé kombinace zadaných dat.

+++++++++

Na regresi se ale můžeme dívat také rovnicově (tedy prostřednictvím lineární algebry). Hledáme přímku y=a+bx a máme n bodů, kterými by měla procházet. To vede k tzv. přeurčené soustavě n rovnic pro dvě neznámé, která obvykle nemá řešení (nic překvapivého - těch n bodů se obecně proložit přímkou nedá).

a+b*x1 = y1
a+b*x2 = y2
...
a+b*xn = yn

V takovém případě se musí najít přibližné řešení tak, že se vektor pravých stran promítne do roviny určené sloupci matice odpovídající levé straně. Korelace pak má hezký geometrický význam - je to kosínus úhlu mezi vektorem pravé strany a zmíněnou rovinou. K tomuto přístupu se časem vrátím. Chcete-li se v tom začít nimrat hned, mrkněte se sem.

+++++++++

A protože se kvapem blíží vánoce, na vydýchání si dnes dáme jednu hezkou vánoční disko koledu. Ko-ko-co? Wizardz of Oz: Holla for the Holidays.

Předchozí díly Matykání

Autor: Jan Řeháček | neděle 9.12.2018 9:09 | karma článku: 18.94 | přečteno: 667x

Další články blogera

Jan Řeháček

Půl století bez Jana Palacha

Před padesáti lety podlehl svým těžkým popáleninám Jan Palach. Mladý muž, jehož protestní sebeupálení děsilo normalizační režim do té míry, že se o něm mnoho let nesmělo veřejně mluvit. Přesto se zařadil k národním ikonám.

19.1.2019 v 15:30 | Karma článku: 14.39 | Přečteno: 237 | Diskuse

Jan Řeháček

Tvrzení chrámu 14 (lepšolidi)

Rozmohlo se nám tady takové nové slovo: "lepšolidi". A intenzita, se kterou se rozhořelo dává tušit, že se ho asi nějakou dobu nezbavíme (viz dnešní datová pitva). Tak tedy vítej v našem jazyce vezdejším. Ecce Homo Sapiens Melior.

9.1.2019 v 9:09 | Karma článku: 25.55 | Přečteno: 687 | Diskuse

Jan Řeháček

Zamyky zamyky... na sedm západů

Nedávno jsem se dostal do prekérní situace. Je pozdní odpoledne - oči se mi klíží, den se pomalu chýlí ke konci, široširý oceán možností zpívá svou podmanivou píseň a moje neposedná kocábka se zvídavě pohupuje na jeho vlnách...

31.12.2018 v 9:09 | Karma článku: 23.80 | Přečteno: 442 | Diskuse

Další články z rubriky Věda

Alexandra Bolková

Historie leváctví

Sinistralita je i v dnešní době velmi diskutovaným tématem, které v sobě skrývá mnoho nevyřešených otázek. Stále není úplně jasné, jak a proč leváctví vzniklo, avšak již od nepaměti se touto otázkou zabývá velké množství lidí.

19.1.2019 v 9:48 | Karma článku: 11.99 | Přečteno: 268 | Diskuse

Dana Tenzler

Mléčná dráha a její sourozenci

Sourozenci mají někdy hodně komplikované vztahy. Platí to i pro vesmírné rodiny. V našem bezprostředním vesmírném okolí se v minulosti událo nejedno kosmické drama. (délka blogu 8 min.)

17.1.2019 v 8:00 | Karma článku: 23.87 | Přečteno: 408 | Diskuse

Jan Švadlenka

Regulovaná buněčná smrt II. - Apoptóza

Další část série článků týkajících se regulované buněčné smrti je věnována apoptóze, komplexnímu ději sloužícímu k odstraňování nepotřebných či nebezpečných buněk a recyklaci jejich materiálu.

15.1.2019 v 15:20 | Karma článku: 11.29 | Přečteno: 230 | Diskuse

Libor Čermák

Zvláštnost podobných hor na jednom poledníku

K tomu, jak si příroda umí někdy zašpásovat, mne přivedl obrázek chilského pohoří Torres del Paine. Všimněte si, že obrázek se velmi podobá hoře Huyana Picchu v Peru, tyčící se nad slavnou Machu Picchu.

15.1.2019 v 6:04 | Karma článku: 11.87 | Přečteno: 433 |

Jan Fikáček

Teorie relativity extrémně názorně

Byly pro vás všechny výklady speciální teorie relativity příliš nepochopitelné a složité? Tak zkuste ještě přístupnější výklad, který vám relativitu přiblíží paralelami s důvěrně známými jevy jako jsou stín nebo déšť.

14.1.2019 v 9:17 | Karma článku: 35.55 | Přečteno: 1588 | Diskuse
VIP
Počet článků 266 Celková karma 20.81 Průměrná čtenost 850

Devátý nejhorší kuchař na světě, odpůrce politické překorektnělosti, začínající marťan, neúnavný konzument točeného kyslíku a jazykový dobrodruh ab incunabulis. Člen Analytického piva a Gustavu pro jazyk český. Správce Vojensko-českého slovníku.

Najdete na iDNES.cz