- Ako vypočítať korelačný koeficient?
- Covariance a rozptyl
- Ilustratívny prípad
- Covariance Sxy
- Štandardná odchýlka Sx
- Štandardná odchýlka Sy
- Korelačný koeficient r
- interpretácia
- Lineárna regresia
- príklad
- Referencie
Korelačný koeficient v štatistikách je indikátorom toho, že opatrenia tendencia dvoch kvantitatívnych premenných X a Y majú lineárne alebo proporcionálne vzťah medzi nimi.
Spravidla sú páry premenných X a Y dve charakteristiky tej istej populácie. Napríklad X môže byť výška osoby a jej hmotnosť.

Obrázok 1. Korelačný koeficient pre štyri páry údajov (X, Y). Zdroj: F. Zapata.
V takom prípade by korelačný koeficient naznačoval, či v danej populácii existuje trend k proporcionálnemu vzťahu medzi výškou a hmotnosťou.
Pearsonov lineárny korelačný koeficient je označený malým písmenom r a jeho minimálne a maximálne hodnoty sú -1 a +1.
Hodnota r = +1 by znamenala, že množina párov (X, Y) je dokonale zarovnaná a že keď X rastie, Y porastie v rovnakom pomere. Na druhej strane, ak by sa stalo, že r = -1, množina párov by tiež bola dokonale zarovnaná, ale v tomto prípade, keď sa X zvýši, Y klesne v rovnakom pomere.

Obrázok 2. Rôzne hodnoty koeficientu lineárnej korelácie. Zdroj: Wikimedia Commons.
Na druhej strane, hodnota r = 0 by naznačovala, že neexistuje žiadna lineárna korelácia medzi premennými X a Y. Zatiaľ čo hodnota r = +0,8 by naznačovala, že páry (X, Y) majú tendenciu sa zhlukovať na jednej strane a ďalší z určitého riadku.
Vzorec na výpočet korelačného koeficientu r je nasledujúci:

Ako vypočítať korelačný koeficient?
Koeficient lineárnej korelácie je štatistická veličina, ktorá je zabudovaná do vedeckých kalkulačiek, väčšiny tabuliek a štatistických programov.
Je však užitočné vedieť, ako sa používa vzorec, ktorý ho definuje, a na tento účel sa zobrazí podrobný výpočet, ktorý sa vykoná na malom súbore údajov.
A ako už bolo uvedené v predchádzajúcej časti, korelačný koeficient je kovariancia Sxy delená súčinom štandardnej odchýlky Sx pre premenné X a Sy pre premennú Y.
Covariance a rozptyl
Kovariancia Sxy je:
Sxy = / (N-1)
Ak súčet sa pohybuje od 1 do N párov údajov (Xi, Yi).
Pokiaľ ide o jeho časť, smerodajná odchýlka pre premennú X je druhá odmocnina rozptylu množiny údajov Xi s i od 1 do N:
Sx = √
Podobne je štandardnou odchýlkou pre premennú Y druhá odmocnina rozptylu množiny údajov Yi s i od 1 do N:
Sy = √
Ilustratívny prípad
Aby sme mohli podrobne ukázať, ako vypočítať korelačný koeficient, vezmeme nasledujúcu množinu štyroch párov údajov
(X, Y): {(1, 1); (2,3); (3, 6) a (4, 7)}.
Najprv vypočítame aritmetický priemer pre X a Y takto:
Potom sa vypočítajú zostávajúce parametre:
Covariance Sxy
Sxy = / (4-1)
Sxy = / (3) = 10,5 / 3 = 3,5
Štandardná odchýlka Sx
Sx = √ = √ = 1,29
Štandardná odchýlka Sy
Sx = √ =
√ = 2,75
Korelačný koeficient r
r = 3,5 / (1,29 x 2,75) = 0,98
interpretácia
V súbore údajov predchádzajúceho prípadu je pozorovaná silná lineárna korelácia medzi premennými X a Y, ktorá sa prejavuje ako v rozptylovom grafe (znázornenom na obrázku 1), tak aj v korelačnom koeficiente, ktorý poskytol hodnota celkom blízko k jednote.
Pokiaľ je korelačný koeficient bližšie k 1 alebo -1, tým väčší zmysel dáva údaje na priamku, čo je výsledok lineárnej regresie.
Lineárna regresia
Lineárna regresná čiara sa získa metódou najmenších štvorcov. kde parametre regresnej priamky sa získavajú minimalizáciou súčtu druhej mocniny rozdielu medzi odhadovanou hodnotou Y a hodnotou Yi N údajov.
Na druhej strane parametre a a b regresnej priamky y = a + bx, získané metódou najmenších štvorcov, sú:
* b = Sxy / (Sx 2 ) pre svah
* a =
Pripomeňme, že Sxy je kovariancia definovaná vyššie a Sx 2 je rozptyl alebo štvorec štandardnej odchýlky definovanej vyššie.
príklad
Korelačný koeficient sa používa na určenie, či existuje lineárna korelácia medzi dvoma premennými. Uplatňuje sa, keď sú premenné, ktoré sa majú študovať, kvantitatívne a okrem toho sa predpokladá, že sledujú normálnu distribúciu typov.
Ilustratívny príklad je uvedený nižšie: miera stupňa obezity je index telesnej hmotnosti, ktorý sa získa vydelením hmotnosti osoby v kilogramoch jej štvorcovou výškou v jednotkách metrov štvorcových.
Chcete vedieť, či existuje silná korelácia medzi indexom telesnej hmotnosti a koncentráciou HDL cholesterolu v krvi, meranou v milimóloch na liter. Na tento účel sa uskutočnila štúdia s 533 ľuďmi, čo je zhrnuté v nasledujúcom grafe, v ktorom každý bod predstavuje údaje jednej osoby.

Obrázok 3. Štúdia BMI a HDL cholesterolu u 533 pacientov. Zdroj: Aragonský inštitút zdravotných vied (IACS).
Starostlivé pozorovanie grafu ukazuje, že medzi koncentráciou HDL cholesterolu a indexom telesnej hmotnosti existuje určitý lineárny trend (nie veľmi výrazný). Kvantitatívnou mierou tohto trendu je korelačný koeficient, ktorý sa v tomto prípade ukázal ako r = -0,276.
Referencie
- González C. Všeobecné štatistiky. Získané z: tarwi.lamolina.edu.pe
- IACS. Aragonský inštitút zdravotných vied. Získané z: ics-aragon.com
- Salazar C. a Castillo S. Základné princípy štatistiky. (2018). Obnovené z: dspace.uce.edu.ec
- Superprof. Korelačný koeficient. Získané z: superprof.es
- USAC. Príručka popisnej štatistiky. (2011). Získané z: statistics.ingenieria.usac.edu.gt
- Wikipedia. Pearsonov korelačný koeficient. Obnovené z: es.wikipedia.com.
