Kapitola 4 - Popisná statistika
Obsah
Kapitola 4 - Popisná statistika¶
Statistický soubor¶
Popisná statistika zkoumá statistický soubor, tj. množinu určitých dat, a stanovuje pro něj statistické znaky (jako například aritmetický průměr), podle kterých se můžeme orientovat. Rovněž se zabývá tím, jak získaná data názornit.
Histogram četnosti¶
Histogram četnosti je sloupcový graf znázorňující rozdělení četností číselných dat ve stejně velkých intervalech.
“Optimální” počet tříd \(k\) v histogramu lze stanovit pomocí tzv. Sturgersova pravidla
kde \(n\) je počet údajů v souboru a funkce \({Round}\) zaokrouhluje argument funkce na nejbližší celé číslo.
Základní charakteristiky dat¶
Podobně jako u náhodné veličiny, tak také u statistického souboru je možné k jeho popisu použít charakteristiky polohy a rozptylu.
Charakteristiky polohy¶
Aritmetický průměr: $\(\overline x = \frac{1}{n} \sum_{i=1}^n\)$
Modus \(\hat x\)- nejčastější hodnota
Medián \(\tilde x\)
při lichém počtu hodnot v souboru za medián bereme prostřední hodnotu souboru.
při sudém počtu hodnot za medián bereme aritmetický průměr největší hodnoty dolní poloviny a nejmenší hodnoty horní poloviny.
Vážený aritmetický průměr:
Aritmetický průměr dává stejnou důležitost (váhu) každému z údajů, avšak údaje mají někdy důležitost různou.
Geometrický průměr: Umožňuje například sledovat průměrné tempo růstu za určité období.
Charakteristiky variability¶
Rozptyl:
Směrodatná odchylka:
Směrodatná odchylka se také často značí jako \(s\).
Další charakteristiky¶
Šikmost je charakteristikou, která popisuje symetrii pravděpodobnostního rozdělení dat vzhledem k aritmetickému průměru.
Nulová šikmost značí, že hodnoty souboru jsou rovnoměrně rozděleny vlevo a vpravo od průměru.
Kladná šikmost značí, že vpravo od průměru se vyskytují odlehlejší hodnoty nežli vlevo a tím pádem se většina hodnot nachází vlevo od průměru.
U záporné šikmosti je tomu naopak.
Špičatost je charakteristikou, která porovnává dané rozdělení s normálním rozdělením.
Nulová špičatost značí normované normální rozdělení, tj. aritmetický průměr rovný \(0\) a směrodatná odchylka rovna \(1\).
Kladná špičatost ukazuje na rozdělení špičatější než normální, tudíž má hodnoty více koncentrované k průměru.
Záporná špičatost je naopak plošší.
Korelace¶
Pokud u statistického souboru zjišťujeme dva znaky, může nás zajímat statistická závislost obou znaků. Její míru vyjadřujeme koeficientem korelace
Interpretace hodnot \(r_{xy}\)¶
pokud nadprůměrným hodnotám \(x\) odpovídají většinou nadprůměrné hodnoty \(y\) a podprůměrným hodnotám \(x\) odpovídají většinou podprůměrné hodnoty \(y\), pak bude v čitateli většina součinů kladných a tudíž i \(r_{xy}>0\).
pokud naopak nadprůměrným hodnotám \(x\) odpovídají většinou podprůměrné hodnoty \(y\), pak bude v čitateli většina součinů záporných a tudíž i \(r_{xy}<0\).
není-li mezi \(x\) a \(y\) žádná závislost, budou mít kladné i záporné součiny v čitateli tendence se v součtu rušit a poté \(r_{xy}\sim 0\).