Kapitola 5 - Hypotézy a statistické testy

Nulová a alternativní hypotéza

Nulová hypotéza je statistické tvrzení, že mezi zkoumanými proměnnými není vztah.

Jestliže se při statistické analýze ukáže, že nulovou hypotézu je možné odmítnout, přijímáme tzv. alternativní hypotézu.

Statistické testy významnosti

Statistické testy významnosti jsou postupy sloužící k ověření, zda mezi jevy je statisticky významný vztah.

Pravděpodobnost, že neoprávněně odmítneme nulovou hypotézu (a tak nesprávně přijmeme alternativní), se nazývá hladina významnosti.

Test dobré shody chí-kvadrát

  • používá se pro analýzu nominálních dat

  • ověřuje se, zda četnosti získané v pedagogickém výzkumu se statisticky významně odlišují od teoretických četností

Příklad 1

\(120\) žáků jisté základní školy odpovídalo v dotazníku na otázku “Jakou čokoládu máš nejraději?

A) Hořkou

B) Mléčnou

C) Bílou

Na základě testu dobré shody chí-kvadrát máme rozhodnout, zda mezi oblíbeností čokolád jsou statisticky významné rozdíly.

Čokoláda

Pozorovaná četnost \(P\)

Očekávaná četnost \(O\)

$\(\frac{(P-O)^2}{O}\)$

Hořká

\(42\)

\(40\)

\(0,1\)

Mléčná

\(50\)

\(40\)

\(2,5\)

Bílá

\(28\)

\(40\)

\(3,6\)

\(\sum 120\)

\(\sum 120\)

\(\sum 6,2\)

Hypotézy:

\(H_0\ldots\) četnosti žáků, kteří mají v oblibě jednotlivé čokolády, jsou stejné

\(H_1\ldots\) četnosti žáků, kteří mají v oblibě jednotlivé čokolády, jsou různé

Vyhodnocení příkladu:

  • Vypočtenou hodnotu \(\chi^2=6,2\) porovnáme s tzv. kritickou hodnotou chí-kvadrát pro \(2\) stupně volnosti (v tabulce odpovídá stupeň volnosti počtu řádků, jejichž hodnoty lze libovolně zvolit) a hladinu významnosti \(0,05\). Podle tabulek je \(\chi^2_{0,05}(2)=5,991\)

  • Jelikož \(6,2 > 5,991\), můžeme nulovou hypotézu zamítnout (s rizikem \(5\) %) a přijmout alternativní hypotézu.

  • Jelikož však \(\chi^2_{0,01}(2)= 9,21 > 6,2\); musíme odmítnout alternativní hypotézu (s rizikem \(0,01\)) a přijmout nulovou hypotézu

Interpretace dosažených výsledků

  • pokud přijmeme nulovou hypotézu, pak to znamená, že případné rozdíly mezi výsledky lze vysvětlit náhodou

  • pokud přijmeme alternativní hypotézu, již jsou rozdíly statisticky významné

K vyhodnocení příkladu použijeme například statistické tabulky:

https://is.muni.cz/do/1499/el/estud/prif/ps09/genetika/web/pdf/chi-kvadrat.pdf (v těchto tabulkách je kritická hodnota uvedena přímo pro hladinu významnosti $0,05č)

http://statistika.vse.cz/download/materialy/tabulky.pdf (v těchto tabulkách je kritická hodnota pro hladinu významnosti \(0,05\) uvede jako \(0,95\) kvantil a kritická hodnota pro hladinu významnosti \(0,01\) je uvedena jako \(0,99\) kvantil)

Test nezávislosti chí-kvadrát pro kontingenční tabulku

Užíváme v případech, kdy rozhodujeme, zda existuje závislost mezi dvěma (pedagogickými jevy) zachycené pomocí nominálního (ordinálního) měření.

Příklad 2

\(300\) studentům lékařské fakulty byl dán dotazník obsahující dvě otázky:

Chodíte pravidelně (tj. aspoň dvakrát za týden) běhat?

A) ANO

B) NE

Jaký byl Váš studijní průměr v posledním akademickém roce?

A) lepší než \(1,5\)

B) \(1,5-2,2\)

C) horší než \(2,2\)

Prospěch

Prospěch

Prospěch

lepší než \(1,5\)

\(1,5\)\(2,2\)

horší než \(2,2\)

\(\sum\)

Běhání

ANO

\(25\) \((22)\)

\(75\) \((70)\)

\(20\) \((28)\)

\(120\)

Běhání

NE

\(30\) \((33)\)

\(100\) \((105)\)

\(50\) \((42)\)

\(180\)

\(\sum\)

\(55\)

\(175\)

\(70\)

\(300\)

Čísla uváděná vpravo a dole jsou tzv. marginální (okrajové) hodnoty.

Čísla v závorce jsou očekávané hodnoty (násobíme odpovídající marginální hodnoty a dělíme celkovým počtem), například

\[22=\frac{55 \cdot 120}{300}.\]

Formulujme nulovou a alternativní hypotézu:

\(H_0\ldots\) mezi četnostmi odpovědí na obě otázky není závislost

\(H_1\ldots\) mezi odpověďmi studentů je závislost

Testové kritérium \(\chi^2\) vypočítáme jako součet hodnot \(\frac{(P-O)^2}{O},\) tj. \(0,41+0,35+2,29+0,27+0,24+1,52 = 5,08\).

Stupeň volnosti \(f = (r-1)\cdot (s-1)\), kde \(r\) je počet řádků a \(s\) je počet sloupců, v našem případě \(f=(r-1)\cdot (s-1)=2\).

Podle tabulek je \(\chi^2_{0,05}(2)=5,991\). Jelikož \(5,08 < 5,991\), nemůžeme nulovou hypotézu na hladině významnosti \(0,05\) odmítnout.

Pozor!

Test nezávislosti chí-kvadrát nelze užít v případech, kdy ve více než \(20\) % polí kontingenční tabulky jsou očekávané četnosti menší než \(5\) a v případě, že v některém poli je očekávaná četnost menší než \(1\).