Kapitola 5 - Hypotézy a statistické testy
Obsah
Kapitola 5 - Hypotézy a statistické testy¶
Nulová a alternativní hypotéza¶
Nulová hypotéza je statistické tvrzení, že mezi zkoumanými proměnnými není vztah.
Jestliže se při statistické analýze ukáže, že nulovou hypotézu je možné odmítnout, přijímáme tzv. alternativní hypotézu.
Statistické testy významnosti¶
Statistické testy významnosti jsou postupy sloužící k ověření, zda mezi jevy je statisticky významný vztah.
Pravděpodobnost, že neoprávněně odmítneme nulovou hypotézu (a tak nesprávně přijmeme alternativní), se nazývá hladina významnosti.
Test dobré shody chí-kvadrát¶
používá se pro analýzu nominálních dat
ověřuje se, zda četnosti získané v pedagogickém výzkumu se statisticky významně odlišují od teoretických četností
Příklad 1¶
\(120\) žáků jisté základní školy odpovídalo v dotazníku na otázku “Jakou čokoládu máš nejraději?”
A) Hořkou
B) Mléčnou
C) Bílou
Na základě testu dobré shody chí-kvadrát máme rozhodnout, zda mezi oblíbeností čokolád jsou statisticky významné rozdíly.
Čokoláda |
Pozorovaná četnost \(P\) |
Očekávaná četnost \(O\) |
$\(\frac{(P-O)^2}{O}\)$ |
|---|---|---|---|
Hořká |
\(42\) |
\(40\) |
\(0,1\) |
Mléčná |
\(50\) |
\(40\) |
\(2,5\) |
Bílá |
\(28\) |
\(40\) |
\(3,6\) |
\(\sum 120\) |
\(\sum 120\) |
\(\sum 6,2\) |
Hypotézy:
\(H_0\ldots\) četnosti žáků, kteří mají v oblibě jednotlivé čokolády, jsou stejné
\(H_1\ldots\) četnosti žáků, kteří mají v oblibě jednotlivé čokolády, jsou různé
Vyhodnocení příkladu:
Vypočtenou hodnotu \(\chi^2=6,2\) porovnáme s tzv. kritickou hodnotou chí-kvadrát pro \(2\) stupně volnosti (v tabulce odpovídá stupeň volnosti počtu řádků, jejichž hodnoty lze libovolně zvolit) a hladinu významnosti \(0,05\). Podle tabulek je \(\chi^2_{0,05}(2)=5,991\)
Jelikož \(6,2 > 5,991\), můžeme nulovou hypotézu zamítnout (s rizikem \(5\) %) a přijmout alternativní hypotézu.
Jelikož však \(\chi^2_{0,01}(2)= 9,21 > 6,2\); musíme odmítnout alternativní hypotézu (s rizikem \(0,01\)) a přijmout nulovou hypotézu
Interpretace dosažených výsledků
pokud přijmeme nulovou hypotézu, pak to znamená, že případné rozdíly mezi výsledky lze vysvětlit náhodou
pokud přijmeme alternativní hypotézu, již jsou rozdíly statisticky významné
K vyhodnocení příkladu použijeme například statistické tabulky:
https://is.muni.cz/do/1499/el/estud/prif/ps09/genetika/web/pdf/chi-kvadrat.pdf (v těchto tabulkách je kritická hodnota uvedena přímo pro hladinu významnosti $0,05č)
http://statistika.vse.cz/download/materialy/tabulky.pdf (v těchto tabulkách je kritická hodnota pro hladinu významnosti \(0,05\) uvede jako \(0,95\) kvantil a kritická hodnota pro hladinu významnosti \(0,01\) je uvedena jako \(0,99\) kvantil)
Test nezávislosti chí-kvadrát pro kontingenční tabulku¶
Užíváme v případech, kdy rozhodujeme, zda existuje závislost mezi dvěma (pedagogickými jevy) zachycené pomocí nominálního (ordinálního) měření.
Příklad 2¶
\(300\) studentům lékařské fakulty byl dán dotazník obsahující dvě otázky:
“Chodíte pravidelně (tj. aspoň dvakrát za týden) běhat?”
A) ANO
B) NE
“Jaký byl Váš studijní průměr v posledním akademickém roce?”
A) lepší než \(1,5\)
B) \(1,5-2,2\)
C) horší než \(2,2\)
Prospěch |
Prospěch |
Prospěch |
|||
|---|---|---|---|---|---|
lepší než \(1,5\) |
\(1,5\) až \(2,2\) |
horší než \(2,2\) |
\(\sum\) |
||
Běhání |
ANO |
\(25\) \((22)\) |
\(75\) \((70)\) |
\(20\) \((28)\) |
\(120\) |
Běhání |
NE |
\(30\) \((33)\) |
\(100\) \((105)\) |
\(50\) \((42)\) |
\(180\) |
\(\sum\) |
\(55\) |
\(175\) |
\(70\) |
\(300\) |
Čísla uváděná vpravo a dole jsou tzv. marginální (okrajové) hodnoty.
Čísla v závorce jsou očekávané hodnoty (násobíme odpovídající marginální hodnoty a dělíme celkovým počtem), například
Formulujme nulovou a alternativní hypotézu:
\(H_0\ldots\) mezi četnostmi odpovědí na obě otázky není závislost
\(H_1\ldots\) mezi odpověďmi studentů je závislost
Testové kritérium \(\chi^2\) vypočítáme jako součet hodnot \(\frac{(P-O)^2}{O},\) tj. \(0,41+0,35+2,29+0,27+0,24+1,52 = 5,08\).
Stupeň volnosti \(f = (r-1)\cdot (s-1)\), kde \(r\) je počet řádků a \(s\) je počet sloupců, v našem případě \(f=(r-1)\cdot (s-1)=2\).
Podle tabulek je \(\chi^2_{0,05}(2)=5,991\). Jelikož \(5,08 < 5,991\), nemůžeme nulovou hypotézu na hladině významnosti \(0,05\) odmítnout.
Pozor!
Test nezávislosti chí-kvadrát nelze užít v případech, kdy ve více než \(20\) % polí kontingenční tabulky jsou očekávané četnosti menší než \(5\) a v případě, že v některém poli je očekávaná četnost menší než \(1\).