{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Kapitola 5 - Hypotézy a statistické testy" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Nulová a alternativní hypotéza" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Nulová hypotéza** je statistické tvrzení, že mezi zkoumanými proměnnými není vztah. \n", "\n", "Jestliže se při statistické analýze ukáže, že nulovou hypotézu je možné odmítnout, přijímáme tzv. **alternativní hypotézu**." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Statistické testy významnosti" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Statistické testy významnosti jsou postupy sloužící k ověření, zda mezi jevy je statisticky významný vztah.\n", "\n", "Pravděpodobnost, že neoprávněně odmítneme nulovou hypotézu (a tak nesprávně přijmeme alternativní), se nazývá hladina významnosti." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Test dobré shody chí-kvadrát" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- používá se pro analýzu nominálních dat\n", "\n", "- ověřuje se, zda četnosti získané v pedagogickém výzkumu se statisticky významně odlišují od teoretických četností" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Příklad 1" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "$120$ žáků jisté základní školy odpovídalo v dotazníku na otázku \"*Jakou čokoládu máš nejraději?*\" \n", "\n", "A) Hořkou \n", "\n", "B) Mléčnou \n", "\n", "C) Bílou \n", "\n", "Na základě testu dobré shody chí-kvadrát máme rozhodnout, zda mezi oblíbeností čokolád jsou statisticky významné rozdíly." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", "| Čokoláda | Pozorovaná četnost $P$ | Očekávaná četnost $O$ | $$\\frac{(P-O)^2}{O}$$ |\n", "| --- | --- | --- | --- |\n", "| Hořká | $42$ | $40$ | $0,1$ |\n", "| Mléčná | $50$ | $40$ | $2,5$ |\n", "| Bílá | $28$ | $40$ | $3,6$ |\n", "| | $\\sum 120$ | $\\sum 120$ | $\\sum 6,2$ |" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Hypotézy:**\n", "\n", "$H_0\\ldots$ četnosti žáků, kteří mají v oblibě jednotlivé čokolády, jsou stejné \n", "\n", "$H_1\\ldots$ četnosti žáků, kteří mají v oblibě jednotlivé čokolády, jsou různé" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "*Vyhodnocení příkladu:*\n", "\n", "- Vypočtenou hodnotu $\\chi^2=6,2$ porovnáme s tzv. kritickou hodnotou chí-kvadrát pro $2$ stupně volnosti (v tabulce odpovídá stupeň volnosti počtu řádků, jejichž hodnoty lze libovolně zvolit) a hladinu významnosti $0,05$. Podle tabulek je $\\chi^2_{0,05}(2)=5,991$\n", "\n", "- Jelikož $6,2 > 5,991$, můžeme nulovou hypotézu zamítnout (s rizikem $5$ %) a přijmout alternativní hypotézu. \n", "\n", "- Jelikož však $\\chi^2_{0,01}(2)= 9,21 > 6,2$; musíme odmítnout alternativní hypotézu (s rizikem $0,01$) a přijmout nulovou hypotézu" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Interpretace dosažených výsledků**\n", "- pokud přijmeme nulovou hypotézu, pak to znamená, že případné rozdíly mezi výsledky lze vysvětlit náhodou \n", "\n", "- pokud přijmeme alternativní hypotézu, již jsou rozdíly statisticky významné" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", "**K vyhodnocení příkladu použijeme například statistické tabulky:**\n", "\n", "https://is.muni.cz/do/1499/el/estud/prif/ps09/genetika/web/pdf/chi-kvadrat.pdf (v těchto tabulkách je kritická hodnota uvedena přímo pro hladinu významnosti $0,05č)\n", "\n", "http://statistika.vse.cz/download/materialy/tabulky.pdf (v těchto tabulkách je kritická hodnota pro hladinu významnosti $0,05$ uvede jako $0,95$ kvantil a kritická hodnota pro hladinu významnosti $0,01$ je uvedena jako $0,99$ kvantil) \n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Test nezávislosti chí-kvadrát pro kontingenční tabulku" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Užíváme v případech, kdy rozhodujeme, zda existuje závislost mezi dvěma (pedagogickými jevy) zachycené pomocí nominálního (ordinálního) měření." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Příklad 2" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "$300$ studentům lékařské fakulty byl dán dotazník obsahující dvě otázky: \n", "\n", "\"*Chodíte pravidelně (tj. aspoň dvakrát za týden) běhat?*\" \n", "\n", "A) ANO \n", "\n", "B) NE \n", "\n", "\"*Jaký byl Váš studijní průměr v posledním akademickém roce?*\" \n", "\n", "A) lepší než $1,5$ \n", "\n", "B) $1,5-2,2$ \n", "\n", "C) horší než $2,2$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", "| | | Prospěch | Prospěch | Prospěch| |\n", "| --- | --- | --- | --- | --- | --- |\n", "| | | lepší než $1,5$ | $1,5$ až $2,2$ | horší než $2,2$ | $\\sum$ |\n", "| Běhání | ANO | $25$ $(22)$ | $75$ $(70)$ | $20$ $(28)$ | $120$ |\n", "| Běhání | NE | $30$ $(33)$ | $100$ $(105)$ | $50$ $(42)$ | $180$ |\n", "| | $\\sum$| $55$ | $175$ | $70$ | $300$|" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Čísla uváděná vpravo a dole jsou tzv. marginální (okrajové) hodnoty. \n", "\n", "Čísla v závorce jsou očekávané hodnoty (násobíme odpovídající marginální hodnoty a dělíme celkovým počtem), například\n", "\n", "$$22=\\frac{55 \\cdot 120}{300}.$$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Formulujme nulovou a alternativní hypotézu:**\n", "\n", "$H_0\\ldots$ mezi četnostmi odpovědí na obě otázky není závislost \n", "\n", "$H_1\\ldots$ mezi odpověďmi studentů je závislost" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Testové kritérium $\\chi^2$ vypočítáme jako součet hodnot $\\frac{(P-O)^2}{O},$ tj. $0,41+0,35+2,29+0,27+0,24+1,52 = 5,08$. \n", "\n", "Stupeň volnosti $f = (r-1)\\cdot (s-1)$, kde $r$ je počet řádků a $s$ je počet sloupců, v našem případě $f=(r-1)\\cdot (s-1)=2$. \n", "\n", "Podle tabulek je $\\chi^2_{0,05}(2)=5,991$. Jelikož $5,08 < 5,991$, nemůžeme nulovou hypotézu na hladině významnosti $0,05$ odmítnout." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Pozor!**\n", "\n", "Test nezávislosti chí-kvadrát nelze užít v případech, kdy ve více než $20$ % polí kontingenční tabulky jsou očekávané četnosti menší než $5$ a v případě, že v některém poli je očekávaná četnost menší než $1$." ] } ], "metadata": { "kernelspec": { "display_name": "Octave", "language": "octave", "name": "octave" }, "language_info": { "file_extension": ".m", "help_links": [ { "text": "GNU Octave", "url": "https://www.gnu.org/software/octave/support.html" }, { "text": "Octave Kernel", "url": "https://github.com/Calysto/octave_kernel" }, { "text": "MetaKernel Magics", "url": "https://metakernel.readthedocs.io/en/latest/source/README.html" } ], "mimetype": "text/x-octave", "name": "octave", "version": "7.0.0" } }, "nbformat": 4, "nbformat_minor": 4 }