- Dôležitosť homoscedasticity
- Homoscedasticita verzus heteroscedasticita
- Testy homoscedasticity
- Štandardizované premenné
- Negrafické testy homoscedasticity
- Referencie
K homoscedasticite v prediktívnom štatistickom modeli dochádza, ak všetky skupiny údajov jedného alebo viacerých pozorovaní, rozptyl (alebo nezávislý) obrazec vzhľadom na vysvetľujúce premenné zostávajú konštantné.
Regresný model môže byť homoscedastický alebo nie, v takom prípade hovoríme o heteroscedasticite.
Obrázok 1. Päť súborov údajov a regresné prispôsobenie sady. Rozptyl vzhľadom na predpokladanú hodnotu je v každej skupine rovnaký. (Upav-biblioteca.org)
Štatistický regresný model niekoľkých nezávislých premenných sa nazýva homoscedastic, iba ak rozptyl chyby predpovedanej premennej (alebo štandardnej odchýlky závislej premennej) zostáva jednotný pre rôzne skupiny hodnôt vysvetľujúcich alebo nezávislých premenných.
V piatich skupinách údajov na obrázku 1 bola vypočítaná rozptyl v každej skupine s ohľadom na hodnotu odhadnutú regresiou, ktorá sa ukázala rovnaká v každej skupine. Ďalej sa predpokladá, že údaje sa riadia normálnym rozdelením.
Na grafickej úrovni to znamená, že body sú rovnako rozptýlené alebo rozptýlené okolo hodnoty predpovedanej regresným prispôsobením a že regresný model má rovnakú chybu a platnosť pre rozsah vysvetľujúcej premennej.
Dôležitosť homoscedasticity
Na ilustráciu dôležitosti homoscedasticity v prediktívnej štatistike je potrebné kontrastovať s opačným fenoménom, heteroscedasticitou.
Homoscedasticita verzus heteroscedasticita
V prípade obrázku 1, kde je homoscedasticita, je pravda, že:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)
Ak Var ((yi-Yi); Xi) predstavuje rozptyl, pár (xi, yi) predstavuje dáta zo skupiny i, zatiaľ čo Yi je hodnota predpovedaná regresiou pre strednú hodnotu Xi skupiny. Rozptyl n údajov zo skupiny i sa vypočíta takto:
Var ((yi-Yi); Xi) = -j (yij-Yi) ^ 2 / n
Naopak, keď dôjde k heteroscedasticite, nemusí byť regresný model platný pre celú oblasť, v ktorej bol vypočítaný. Obrázok 2 zobrazuje príklad tejto situácie.
Obrázok 2. Skupina údajov vykazujúcich heteroscedasticitu. (Vlastné spracovanie)
Obrázok 2 predstavuje tri skupiny údajov a prispôsobenie súboru pomocou lineárnej regresie. Je potrebné poznamenať, že údaje v druhej a tretej skupine sú viac rozptýlené ako v prvej skupine. Graf na obrázku 2 tiež ukazuje strednú hodnotu každej skupiny a jej stĺpec chýb ± σ, so štandardnou odchýlkou σ každej skupiny údajov. Malo by sa pamätať na to, že štandardná odchýlka σ je druhá odmocnina rozptylu.
Je zrejmé, že v prípade heteroscedasticity sa chyba odhadu regresie mení v rozsahu hodnôt vysvetľujúcej alebo nezávislej premennej av intervaloch, keď je táto chyba veľmi veľká, je regresná predikcia nespoľahlivá alebo nepoužiteľný.
V regresnom modeli sa chyby alebo zvyšky (a -Y) musia rozdeliť s rovnakou rozptylom (σ ^ 2) v intervale hodnôt nezávislej premennej. Z tohto dôvodu musí dobrý regresný model (lineárny alebo nelineárny) prejsť testom homoscedasticity.
Testy homoscedasticity
Body znázornené na obrázku 3 zodpovedajú údajom štúdie, ktorá hľadá vzťah medzi cenami (v dolároch) domov v závislosti od veľkosti alebo plochy v metroch štvorcových.
Prvý testovaný model je lineárna regresia. Najskôr je potrebné poznamenať, že koeficient určenia R2 ^ fitingu je pomerne vysoký (91%), takže sa dá predpokladať, že fiting je uspokojivý.
Od grafu úprav však možno jasne rozlíšiť dva regióny. Jeden z nich, ten vpravo, uzavretý v ovále, spĺňa homoscedasticitu, zatiaľ čo oblasť vľavo nemá homoscedasticitu.
To znamená, že predpoveď regresného modelu je primeraná a spoľahlivá v rozsahu od 1800 m2 do 4800 m2, ale mimo tejto oblasti je veľmi neprimeraná. V heteroscedastickej zóne je chyba nielen veľmi veľká, ale zdá sa, že údaje tiež sledujú iný trend ako ten, ktorý navrhuje lineárny regresný model.
Obrázok 3. Ceny bývania verzus oblasť a prediktívny model podľa lineárnej regresie, ukazujúci zóny homoscedasticity a heteroscedasticity. (Vlastné spracovanie)
Rozptylový graf údajov je najjednoduchším a vizuálnym testom ich homoscedasticity, avšak v prípadoch, keď to nie je také zrejmé, ako v príklade znázornenom na obrázku 3, je potrebné uchýliť sa k grafom s pomocnými premennými.
Štandardizované premenné
Aby sa oddelili oblasti, v ktorých je homoscedasticita splnená a kde nie je, zavádzajú sa štandardizované premenné ZRes a ZPred:
ZRes = Abs (y - Y) / σ
ZPred = Y / σ
Je potrebné poznamenať, že tieto premenné závisia od použitého regresného modelu, pretože Y je hodnota predikcie regresie. Nižšie je uvedený bodový graf ZRes vs ZPred pre ten istý príklad:
Obrázok 4. Je potrebné poznamenať, že v zóne homoscedasticity zostávajú ZRes jednotné a malé v predikčnej oblasti (vlastné spracovanie).
V grafe na obrázku 4 so štandardizovanými premennými je oblasť, v ktorej je zostatková chyba malá a jednotná, jasne oddelená od oblasti, v ktorej nie je. V prvej zóne je homoscedasticita splnená, zatiaľ čo v oblasti, kde je zvyšková chyba vysoko variabilná a veľká, je splnená heteroscedasticita.
Regresná úprava sa aplikuje na tú istú skupinu údajov na obrázku 3, v tomto prípade je úprava nelineárna, pretože použitý model zahŕňa potenciálnu funkciu. Výsledok je uvedený na nasledujúcom obrázku:
Obrázok 5. Nové zóny homoscedasticity a heteroscedasticity v údajoch vybavených nelineárnym regresným modelom. (Vlastné spracovanie).
V grafe na obrázku 5 by sa mali jasne zaznamenať homoscedastické a heteroscedastické oblasti. Malo by sa tiež poznamenať, že tieto zóny boli zamieňané s ohľadom na zóny, ktoré boli vytvorené v modeli lineárneho prispôsobenia.
Z grafu na obr. 5 je zrejmé, že aj keď existuje pomerne vysoký koeficient určenia pasáže (93,5%), model nie je vhodný pre celý interval vysvetľujúcej premennej, pretože údaje pre hodnoty viac ako 2000 m2 predstavuje heteroscedasticitu.
Negrafické testy homoscedasticity
Jedným z negrafických testov, ktoré sa najčastejšie používajú na overenie, či je homoscedasticita splnená alebo nie, je test Breusch-Pagan.
V tomto článku nie sú uvedené všetky podrobnosti o tomto teste, jeho základné charakteristiky a kroky sú však uvedené zhruba:
- Regresný model sa aplikuje na údaje n a ich rozptyl sa vypočíta vzhľadom na hodnotu odhadnutú pomocou modelu σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
- Nová premenná je definovaná ε = ((yj - Y) ^ 2) / (σ ^ 2)
- Rovnaký regresný model sa použije na novú premennú a vypočítajú sa jej nové regresné parametre.
- Stanoví sa kritická hodnota Chi štvorca (x ^ 2), čo je polovica súčtu nových zvyškov štvorcov v premennej ε.
- Rozdeľovacia tabuľka Chi štvorca sa používa na zohľadnenie úrovne významnosti (zvyčajne 5%) a počtu stupňov voľnosti (# regresných premenných mínus jednotka) na osi x tabuľky, aby sa získala hodnota doska.
- Kritická hodnota získaná v kroku 3 sa porovná s hodnotou uvedenou v tabuľke (x ^ 2).
- Ak je kritická hodnota pod hodnotou v tabuľke, máme nulovú hypotézu: existuje homoscedasticita
- Ak je kritická hodnota nad hodnotou v tabuľke, máme alternatívnu hypotézu: neexistuje homoscedasticita.
Väčšina štatistických softvérových balíkov, ako sú: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic a niekoľko ďalších, zahŕňa test homoscedasticity Breusch-Pagan. Ďalším testom na overenie rovnomernosti rozptylu je test Levene.
Referencie
- Box, Hunter a Hunter. (1988) Štatistika pre výskumníkov. Obrátil som editorov.
- Johnston, J. (1989). Ekonometrické metódy, Vicens -Vives editori.
- Murillo a González (2000). Ekonometrics Manual. Univerzita v Las Palmas de Gran Canaria. Obnovené z: ulpgc.es.
- Wikipedia. Homoskedasticita. Obnovené z: es.wikipedia.com
- Wikipedia. Homoskedasticita. Obnovené z: en.wikipedia.com