{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Kapitola 4 - Popisná statistika" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Statistický soubor" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Popisná statistika zkoumá **statistický soubor**, tj. množinu určitých dat, a stanovuje pro něj statistické znaky (jako například aritmetický průměr), podle kterých se můžeme orientovat. Rovněž se zabývá tím, jak získaná data názornit." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Histogram četnosti" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Histogram četnosti je sloupcový graf znázorňující rozdělení četností číselných dat ve stejně velkých intervalech.\n", "\n", "\"Optimální\" počet tříd $k$ v histogramu lze stanovit pomocí tzv. Sturgersova pravidla \n", "\n", "$$k={Round}(3,3\\cdot \\log_{10} n)+1,$$\n", "\n", "kde $n$ je počet údajů v souboru a funkce ${Round}$ zaokrouhluje argument funkce na nejbližší celé číslo." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Základní charakteristiky dat" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Podobně jako u náhodné veličiny, tak také u statistického souboru je možné k jeho popisu použít charakteristiky polohy a rozptylu." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Charakteristiky polohy" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- Aritmetický průměr: \n", "$$\\overline x = \\frac{1}{n} \\sum_{i=1}^n$$\n", "\n", "- Modus $\\hat x$- nejčastější hodnota \n", "\n", "- Medián $\\tilde x$ \n", " 1. při lichém počtu hodnot v souboru za medián bereme prostřední hodnotu souboru. \n", " 2. při sudém počtu hodnot za medián bereme aritmetický průměr největší hodnoty dolní poloviny a nejmenší hodnoty horní poloviny." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- Vážený aritmetický průměr: \n", "\n", " Aritmetický průměr dává stejnou důležitost (váhu) každému z údajů, avšak údaje mají někdy důležitost různou. \n", "\n", "$$\\overline{x_w}=\\frac{1}{\\sum_{i=1}^n w_i} \\sum_{i=1}^n w_i x_i$$\n", "\n", "- Geometrický průměr: Umožňuje například sledovat průměrné tempo růstu za určité období." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Charakteristiky variability" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- Rozptyl: \n", "\n", "$$\\sigma^2=\\frac{1}{n}\\sum_{i=1}^n (x_i-\\overline x)^2$$\n", "\n", "- Směrodatná odchylka: \n", "\n", "$$\\sigma = \\sqrt{\\sigma^2}$$\n", "\n", "Směrodatná odchylka se také často značí jako $s$." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Další charakteristiky" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Šikmost** je charakteristikou, která popisuje symetrii pravděpodobnostního rozdělení dat vzhledem k aritmetickému průměru.\n", "\n", "Nulová šikmost značí, že hodnoty souboru jsou rovnoměrně rozděleny vlevo a vpravo od průměru.\n", "\n", "Kladná šikmost značí, že vpravo od průměru se vyskytují odlehlejší hodnoty nežli vlevo a tím pádem se většina hodnot nachází vlevo od průměru. \n", "\n", "U záporné šikmosti je tomu naopak." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Špičatost** je charakteristikou, která porovnává dané rozdělení s normálním rozdělením. \n", "\n", "Nulová špičatost značí normované normální rozdělení, tj. aritmetický průměr rovný $0$ a směrodatná odchylka rovna $1$. \n", "\n", "Kladná špičatost ukazuje na rozdělení špičatější než normální, tudíž má hodnoty více koncentrované k průměru. \n", "\n", "Záporná špičatost je naopak plošší." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Korelace" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Pokud u statistického souboru zjišťujeme dva znaky, může nás zajímat statistická závislost obou znaků. Její míru vyjadřujeme koeficientem korelace\n", "\n", "$$r_{xy}=\\frac{\\frac{1}{n} \\sum_{i=1}^n (x_i-\\overline x)(y_i-\\overline y)}{s_x s_y}.$$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Interpretace hodnot $r_{xy}$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- pokud nadprůměrným hodnotám $x$ odpovídají většinou nadprůměrné hodnoty $y$ a podprůměrným hodnotám $x$ odpovídají většinou podprůměrné hodnoty $y$, pak bude v čitateli většina součinů kladných a tudíž i $r_{xy}>0$.\n", "\n", "- pokud naopak nadprůměrným hodnotám $x$ odpovídají většinou podprůměrné hodnoty $y$, pak bude v čitateli většina součinů záporných a tudíž i $r_{xy}<0$. \n", "\n", "- není-li mezi $x$ a $y$ žádná závislost, budou mít kladné i záporné součiny v čitateli tendence se v součtu rušit a poté $r_{xy}\\sim 0$." ] }, { "cell_type": "markdown", "metadata": {}, "source": [] }, { "cell_type": "markdown", "metadata": {}, "source": [] } ], "metadata": { "kernelspec": { "display_name": "Octave", "language": "octave", "name": "octave" }, "language_info": { "file_extension": ".m", "help_links": [ { "text": "GNU Octave", "url": "https://www.gnu.org/software/octave/support.html" }, { "text": "Octave Kernel", "url": "https://github.com/Calysto/octave_kernel" }, { "text": "MetaKernel Magics", "url": "https://metakernel.readthedocs.io/en/latest/source/README.html" } ], "mimetype": "text/x-octave", "name": "octave", "version": "7.0.0" } }, "nbformat": 4, "nbformat_minor": 4 }