Pravidlo Sturges je kritérium pre stanovenie počtu tried alebo rozsahy, ktoré sú nevyhnutné pre vykreslenie sadu štatistických údajov. Toto pravidlo vyhlásil v roku 1926 nemecký matematik Herbert Sturges.
Sturges navrhol jednoduchú metódu založenú na počte vzoriek x, ktorý by nám umožnil nájsť počet tried a ich šírku rozsahu. Sturgesovo pravidlo sa široko používa, najmä v oblasti štatistiky, konkrétne na vytváranie histogramov frekvencie.
vysvetlenie
Sturgesovo pravidlo je empirická metóda široko používaná v deskriptívnej štatistike na určenie počtu tried, ktoré musia existovať vo frekvenčnom histograme, s cieľom klasifikovať súbor údajov, ktoré predstavujú vzorku alebo populáciu.
Toto pravidlo v zásade určuje šírku grafických kontajnerov, histogramov frekvencie.
Pre stanovenie svojho pravidla Herbert Sturges považoval ideálny frekvenčný diagram, pozostávajúci z K intervalov, kde i-tý interval obsahuje určitý počet vzoriek (i = 0,… k - 1), reprezentovaných ako:
Tento počet vzoriek je daný počtom spôsobov, ktorými možno extrahovať podmnožinu množiny; to je podľa binomického koeficientu vyjadrené takto:
Na zjednodušenie výrazu použil vlastnosti logaritmov na obe časti rovnice:
Sturges teda zistil, že optimálny počet intervalov k je daný výrazom:
Môže sa vyjadriť aj ako:
V tomto výraze:
- k je počet tried.
- N je celkový počet pozorovaní vo vzorke.
- Protokol je bežný logaritmus základne 10.
Napríklad na zostavenie frekvenčného histogramu, ktorý vyjadruje náhodnú vzorku výšky 142 detí, počet intervalov alebo tried, ktoré bude mať distribúcia, je:
k = 1 + 3,322 * log 10 (N)
k = 1 + 3 322 * log (142)
k = 1 + 3,322 * 2,1523
k = 8,14 ≈ 8
Distribúcia bude teda v 8 intervaloch.
Počet intervalov musí byť vždy reprezentovaný celými číslami. V prípadoch, keď je hodnota desatinná, by sa mala vykonať aproximácia na najbližšie celé číslo.
aplikácia
Sturgesovo pravidlo sa uplatňuje hlavne v štatistike, pretože umožňuje rozdelenie frekvencie prostredníctvom výpočtu počtu tried (k), ako aj dĺžky každej z nich, známej tiež ako amplitúda.
Amplitúda je rozdiel medzi hornou a dolnou hranicou triedy, vydelený počtom tried a je vyjadrený:
Existuje veľa pravidiel, ktoré umožňujú rozdelenie frekvencie. Sturgesovo pravidlo sa však bežne používa, pretože aproximuje počet tried, ktoré sa zvyčajne pohybujú od 5 do 15.
Zohľadňuje teda hodnotu, ktorá primerane predstavuje vzorku alebo populáciu; to znamená, že aproximácia nepredstavuje extrémne zoskupenia, ani nepracuje s nadmerným počtom tried, ktoré neumožňujú zhrnutie vzorky.
príklad
Frekvenčný histogram sa musí vytvoriť podľa poskytnutých údajov, ktoré zodpovedajú veku získanému pri prieskume mužov, ktorí cvičia v miestnej telocvični.
Na určenie intervalov je potrebné poznať veľkosť vzorky alebo počet pozorovaní; v tomto prípade je ich 30.
Potom platí Sturgesovo pravidlo:
k = 1 + 3,322 * log 10 (N)
k = 1 + 3 322 * log (30)
k = 1 + 3,322 * 1,4771
k = 5,90 ≈ 6 intervalov.
Z počtu intervalov sa môže vypočítať ich amplitúda; to znamená šírka každého stĺpca zastúpeného vo frekvenčnom histograme:
Dolná hranica sa považuje za najmenšiu hodnotu údajov a horná hranica je najväčšia hodnota. Rozdiel medzi horným a dolným limitom sa nazýva rozsah alebo rozsah premennej (R).
Z tabuľky máme, že horná hranica je 46 a dolná hranica je 13; amplitúda každej triedy bude teda:
Intervaly budú tvoriť hornú a dolnú hranicu. Na určenie týchto intervalov začíname spočítaním od dolného limitu a k tomu pripočítame amplitúdu stanovenú pravidlom (6) nasledujúcim spôsobom:
Potom sa vypočíta absolútna frekvencia na určenie počtu mužov zodpovedajúcich každému intervalu; v tomto prípade je to:
- Interval 1: 13 - 18 = 9
- Interval 2: 19 - 24 = 9
- Interval 3: 25 - 30 = 5
- interval 4: 31 - 36 = 2
- Interval 5: 37 - 42 = 2
- Interval 6: 43 - 48 = 3
Keď sa sčítava absolútna frekvencia každej triedy, musí sa rovnať celkovému počtu vzorky; v tomto prípade 30.
Následne sa vypočíta relatívna frekvencia každého intervalu vydelením jeho absolútnej frekvencie celkovým počtom pozorovaní:
- Interval 1: fi = 9 = 30 = 0,30
- Interval 2: fi = 9 = 30 = 0,30
- Interval 3: fi = 5 = 30 = 0,1666
- Interval 4: fi = 2 = 30 = 0,0666
- Interval 5: fi = 2 = 30 = 0,0666
- interval 4: fi = 3 = 30 = 0,10
Potom môžete vytvoriť tabuľku, ktorá odráža údaje a tiež diagram z relatívnej frekvencie vo vzťahu k získaným intervalom, ako je vidieť na nasledujúcich obrázkoch:
Týmto spôsobom pravidlo Sturges umožňuje určiť počet tried alebo intervalov, v ktorých sa vzorka môže rozdeliť, aby sa mohla zhrnúť vzorka údajov prostredníctvom spracovania tabuliek a grafov.
Referencie
- Alfonso Urquía, MV (2013). Modelovanie a simulácia diskrétnych udalostí. UNED,.
- Altman Naomi, MK (2015). „Jednoduchá lineárna regresia.“ Prírodné metódy.
- Antúnez, RJ (2014). Štatistika vo vzdelávaní. Digitálna JEDNOTKA.
- Fox, J. (1997). Aplikovaná regresná analýza, lineárne modely a súvisiace metódy. Publikácie SAGE.
- Humberto Llinás Solano, CR (2005). Opisné štatistiky a rozdelenie pravdepodobnosti. Severná univerzita.
- Panteleeva, OV (2005). Základy pravdepodobnosti a štatistiky.
- O. Kuehl, MO (2001). Návrh experimentov: Štatistické princípy návrhu a analýzy výskumu. Redaktori Thomson.