- Ako vypočítať koeficient určenia?
- Ilustratívny prípad
- interpretácia
- Príklady
- - Príklad 1
- Riešenie
- - Príklad 2
- Riešenie
- - Príklad 3
- Riešenie
- Prispôsobené porovnanie
- závery
- Referencie
Koeficient stanovenie je číslo medzi 0 a 1, ktorá predstavuje zlomok bodov (x, y), ktoré nasledujú regresná líniu záchvatu súboru dát s dvoma premennými.
To je tiež známe ako dobré zhody a je označovaný R 2 . Na jeho výpočet sa berie kvocient medzi rozptylom údajov estimatedi odhadnutým regresným modelom a rozptylom údajov Yi zodpovedajúcim každému Xi údajov.
R 2 = Sy / Sy
Obrázok 1. Korelačný koeficient pre štyri páry údajov. Zdroj: F. Zapata.
Ak je 100% údajov na riadku regresnej funkcie, potom je koeficient určenia 1.
Naopak, ak je pre súbor dát a určité funkcie fit koeficient R 2 ukáže, že je rovné 0,5, potom možno povedať, že uloženie je 50% uspokojivé alebo dobré.
Podobne, keď regresný model výťažky R 2 hodnoty nižšie ako 0,5, znamená to, že vybraná funkcia nastavenia neprispôsobuje uspokojivo na údaje, a preto je nutné hľadať ďalšie funkcie nastavenia.
A keď kovariančnú alebo korelačný koeficient k nule, potom premenné X a Y v dátach sú nezávislé, a preto R 2 tiež tendenciu k nule.
Ako vypočítať koeficient určenia?
V predchádzajúcej časti sa uviedlo, že koeficient určenia sa vypočíta na základe zistenia kvocientu medzi odchýlkami:
- Odhadnuté regresnou funkciou premennej Y
- Tá premenná Yi, ktorá zodpovedá každej z premennej Xi N dátových párov.
Matematicky to vyzerá takto:
R 2 = Sy / Sy
Z tejto rovnice vyplýva, že R 2 predstavuje podiel rozptylu vysvetlené regresného modelu. Alternatívne, R 2 je možné vypočítať podľa nasledujúceho vzorca, plne zodpovedá predchádzajúce:
R 2 = 1 - (Sε / Sy)
Kde Sε predstavuje rozptyl zvyškov εi = Ŷi - Yi, zatiaľ čo Sy je rozptyl súboru hodnôt Yi údajov. Na určenie Ŷi sa použije regresná funkcia, čo znamená potvrdiť, že Ŷi = f (Xi).
Rozptyl množiny údajov Yi s i od 1 do N sa vypočíta týmto spôsobom:
Sy =
A potom pokračujte podobným spôsobom pre Sŷ alebo Sε.
Ilustratívny prípad
Aby sme ukázali podrobnosti o tom, ako sa robí výpočet koeficientu stanovenia, vezmeme nasledujúci súbor štyroch párov údajov:
(X, Y): {(1, 1); (2,3); (3, 6) a (4, 7)}.
Pre tento súbor údajov, ktorý sa získa pomocou metódy najmenších štvorcov, sa navrhuje lineárne regresné prispôsobenie:
f (x) = 2,1 x -1
Použitím tejto nastavovacej funkcie sa získajú krútiace momenty:
(X, Ŷ): {(1, 1,1); (2, 3,2); (3, 5,3) a (4, 7,4)}.
Potom vypočítame aritmetický priemer pre X a Y:
Variance Sy
Sy = / (4-1) =
= = 7,583
Variant Sŷ
Sŷ = / (4-1) =
= = 7,35
Koeficient determinácie R 2
R 2 = sy / Sy = 7,35 / 7,58 = 0,97
interpretácia
Koeficient stanovenia pre ilustračný prípad považovaný v predchádzajúcom segmente sa ukázal byť 0,98. Inými slovami, lineárne nastavenie prostredníctvom funkcie:
f (x) = 2,1 x -1
Je to 98% spoľahlivé vysvetlenie údajov, s ktorými boli získané pomocou metódy najmenších štvorcov.
Okrem určovacieho koeficientu existuje aj koeficient lineárnej korelácie alebo známy aj ako Pearsonov koeficient. Tento koeficient, označený ako r, sa vypočíta podľa tohto vzťahu:
r = Sxy / (Sx Sy)
Čitateľ tu predstavuje kovarianciu medzi premennými X a Y, zatiaľ čo menovateľ je súčinom štandardnej odchýlky pre premennú X a štandardnej odchýlky pre premennú Y.
Pearsonov koeficient môže nadobúdať hodnoty medzi -1 a +1. Ak má tento koeficient tendenciu k +1, existuje priama lineárna korelácia medzi X a Y. Ak má sklon k -1, existuje lineárna korelácia, ale keď X rastie, Y klesá. Napokon je blízko 0 a medzi týmito dvoma premennými neexistuje korelácia.
Je potrebné poznamenať, že koeficient určenia sa zhoduje s druhou mocninou Pearsonovho koeficientu, iba ak bol prvý výpočet vypočítaný na základe lineárneho prispôsobenia, ale táto rovnosť neplatí pre iné nelineárne prispôsobenia.
Príklady
- Príklad 1
Skupina študentov stredných škôl sa rozhodla určiť empirický zákon na obdobie kyvadla ako funkciu jeho dĺžky. Na dosiahnutie tohto cieľa vykonávajú sériu meraní, pri ktorých merajú čas kyvadlového kyvadla pre rôzne dĺžky a získavajú tieto hodnoty:
Dĺžka (m) | Obdobia |
---|---|
0,1 | 0.6 |
0.4 | 1.31 |
0.7 | 1.78 |
jeden | 1.93 |
1.3 | 2.19 |
1.6 | 2,66 |
1.9 | 2,77 |
3 | 3,62 |
Žiada sa, aby sa urobil rozptyl údajov a vykonal sa lineárny proces regresie. Ukážte tiež regresnú rovnicu a jej koeficient určenia.
Riešenie
Obrázok 2. Graf riešenia cvičenia 1. Zdroj: F. Zapata.
Možno pozorovať pomerne vysoký koeficient určenia (95%), takže by sa dalo usudzovať, že lineárne prispôsobenie je optimálne. Ak sa však body sledujú spoločne, zdá sa, že majú tendenciu krivky klesať. Tento detail nie je uvažovaný v lineárnom modeli.
- Príklad 2
Pre rovnaké údaje ako v príklade 1 urobte rozptylový graf údajov. Pri tejto príležitosti sa na rozdiel od príkladu 1 vyžaduje regresná úprava pomocou potenciálnej funkcie.
Obrázok 3. Graf riešenia pre cvičenie 2. Zdroj: F. Zapata.
Tiež ukazujú fit funkciu a jeho koeficient determinácie R 2 .
Riešenie
Potenciálna funkcia má tvar f (x) = Ax B , kde A a B sú konštanty, ktoré sú stanovené metódou najmenších štvorcov.
Predchádzajúci obrázok ukazuje potenciálnu funkciu a jej parametre, ako aj koeficient stanovenia s veľmi vysokou hodnotou 99%. Všimnite si, že údaje sledujú zakrivenie trendovej čiary.
- Príklad 3
Použitím rovnakých údajov z príkladu 1 a príkladu 2 vykonajte polynomické prispôsobenie druhého stupňa. Zobraziť graf, fit polynóm, a zodpovedajúce koeficient determinácie R 2 .
Riešenie
Obrázok 4. Graf riešenia pre cvičenie 3. Zdroj: F. Zapata.
S prispôsobením polynómu druhého stupňa môžete vidieť čiaru trendu, ktorá dobre zapadá do zakrivenia údajov. Koeficient určenia je tiež nad lineárnym prispôsobením a pod potenciálnym prispôsobením.
Prispôsobené porovnanie
Z troch zobrazených línií je ten s najvyšším koeficientom určovania potenciálny fit (príklad 2).
Potenciálne prispôsobenie sa zhoduje s fyzikálnou teóriou kyvadla, ktorá, ako je známe, potvrdzuje, že perióda kyvadla je úmerná druhej odmocnine jej dĺžky, pričom konštanta proporcionality je 2π / √g, kde g je gravitačné zrýchlenie.
Tento typ potenciálneho prispôsobenia má nielen najvyšší koeficient určenia, ale exponent a konštanta proporcionality zodpovedajú fyzikálnemu modelu.
závery
- Regresná úprava určuje parametre funkcie, ktorej cieľom je vysvetliť údaje pomocou metódy najmenších štvorcov. Táto metóda spočíva v minimalizácii súčtu kvadratického rozdielu medzi hodnotou Y nastavenia a hodnotou Yi údajov pre hodnoty Xi údajov. Toto určuje parametre funkcie ladenia.
- Ako sme videli, najbežnejšou funkciou nastavenia je čiara, ale nie je to jediná, pretože úpravy môžu byť tiež polynómové, potenciálne, exponenciálne, logaritmické a iné.
- Koeficient určenia v každom prípade závisí od údajov a typu úpravy a je znakom dobrosti použitej úpravy.
- Nakoniec koeficient určenia udáva percento celkovej variability medzi hodnotou Y údajov vzhľadom na hodnotu Ŷ úpravy pre daný X.
Referencie
- González C. Všeobecné štatistiky. Získané z: tarwi.lamolina.edu.pe
- IACS. Aragonský inštitút zdravotných vied. Získané z: ics-aragon.com
- Salazar C. a Castillo S. Základné princípy štatistiky. (2018). Obnovené z: dspace.uce.edu.ec
- Superprof. Koeficient určovania. Získané z: superprof.es
- USAC. Príručka popisnej štatistiky. (2011). Získané z: statistics.ingenieria.usac.edu.gt.
- Wikipedia. Koeficient určovania. Obnovené z: es.wikipedia.com.