{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "%matplotlib inline\n", "from ipywidgets import *\n", "import matplotlib.pyplot as plt\n", "from IPython.display import set_matplotlib_formats\n", "set_matplotlib_formats('svg')\n", "import numpy as np\n", "import scipy.stats as stats\n", "import matplotlib.patches as mpatches" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [], "source": [ "def f(k1=1, k2=1):\n", " fig, axes = plt.subplots(figsize=(8,5))\n", " x = np.linspace(0, 4, 1000)\n", " f = stats.f.pdf(x, k1, k2)\n", " plt.plot(x, f)\n", " plt.xlabel(\"x\")\n", " plt.ylabel(\"f(x)\")\n", " plt.title(r\"F(k1=\"+str(k1)+\", k2=\"+str(k2)+\")\")\n", " plt.xlim(0,4)\n", " plt.grid()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Testy dla dwóch zbiorowości" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- test dla prób niezależnych (niesparowany)\n", "- test dla prób niezależnych przy jednakowej wariancji\n", "- test dla prób zależnych (sparowany)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Test dla prób niezależnych (niesparowany)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- Założenia: \n", "\n", "$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;X_{11}, ..., X_{n_1} \\sim N(\\mu_1,\\sigma_1)$,\n", "
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;X_{21}, ..., X_{n_2} \\sim N(\\mu_2, \\sigma_2)$\n", "- Układ hipotez:\n", "\n", "$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;H_0: \\mu_1 = \\mu_2$\n", "
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;H_1: \\mu_1 > / \\neq / < \\mu_2$\n", "- Statystyka: $\\bar{X_1} - \\bar{X_2}$\n", "\n", "$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;E[\\bar{X_1}-\\bar{X_2}] = E[\\bar{X_1}+(-1\\cdot\\bar{X_2})] = E[\\bar{X_1}]+E[-1\\cdot\\bar{X_2}] =E[\\bar{X_1}]-E[\\bar{X_2}]= \\mu_1-\\mu_2$\n", "
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;D^2[\\bar{X_1}-\\bar{X_2}]=D^2[\\bar{X_1}+(-1\\cdot\\bar{X_2})]=D^2[\\bar{X_1}]+D^2[-1\\cdot\\bar{X_2}]= D^2[\\bar{X_1}]\\boldsymbol{+}D^2[\\bar{X_2}]= \\frac{\\sigma_1^2}{n_1}+\\frac{\\sigma_2^2}{n_2}$\n", "\n", "- Standaryzacja:\n", "\n", "$$Z = \\frac{(\\bar{X_1}-\\bar{X_2}) - E[\\bar{X_1}-\\bar{X_2}]}{{D[\\bar{X_1}-\\bar{X_2}]}} = \\frac{(\\bar{X_1}-\\bar{X_2}) - (\\mu_1-\\mu_2)_0}{\\sqrt{\\frac{\\sigma_1^2}{n_1}+\\frac{\\sigma_2^2}{n_2}}}$$\n", "\n", "$$Z = \\frac{(\\bar{X_1}-\\bar{X_2}) }{\\sqrt{\\frac{\\sigma_1^2}{n_1}\\boldsymbol{+}\\frac{\\sigma_2^2}{n_2}}} \\sim N(0,1)$$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- Nieznane $\\sigma_1^2$ i $\\sigma_2^2$, duża próba:\n", "$$Z = \\frac{(\\bar{X_1}-\\bar{X_2}) }{\\sqrt{\\frac{S_1^2}{n_1}+\\frac{S_2^2}{n_2}}} \\approx N(0,1)$$\n", "\n", "- df dla testu t:\n", "$${\\displaystyle \\mathrm {df} ={\\frac {\\left({\\frac {S_{1}^{2}}{n_{1}}}+{\\frac {S_{2}^{2}}{n_{2}}}\\right)^{2}}{{\\frac {\\left(S_{1}^{2}/n_{1}\\right)^{2}}{n_{1}-1}}+{\\frac {\\left(S_{2}^{2}/n_{2}\\right)^{2}}{n_{2}-1}}}}.}$$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Postanowiono porównać zarobki absolwentów informatyki którzy ukończyli uczelnię A i uczelnię B. Losowo wybrano 60 absolwentów uczelni A, uzyskując średnią $\\bar{x}_1$ = 6.5 (w tys. złotych) oraz wariancję $s^2_1 = 3$, oraz 50 absolwentów uczelni B, uzyskując średnią $\\bar{x}_2$ = 6.2 (w tys. złotych) oraz wariancję $s^2_2 = 2$. Wiedząc, że rozkład zarobków jest normalny sprawdź na poziomie istotności $\\alpha$ = 0.05, czy są podstawy wnioskować, że średnia pensja absolwentów uczelni A różni się od pensji absolwentów uczelni B. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "$H_0:$\n", "
$H_1:$\n", "\n", "$\\alpha=0.05$\n", "\n", "$C_{kr} = $\n", "\n", "$Z = $\n", "\n", "$Z ? C_{kr}$\n", "\n", "\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Test dla prób niezależnych przy jednakowej wariancji" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- Założenia:\n", "\n", "$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;X_{11}, ..., X_{n_1} \\sim N(\\mu_1,\\sigma_1)$,\n", "
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;X_{21}, ..., X_{n_2} \\sim N(\\mu_2, \\sigma_2)$,\n", "
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\sigma_1^2=\\sigma_2^2$\n", "- Statystyka:\n", "\n", "$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\bar{X_1} - \\bar{X_2}$\n", "
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;E[\\bar{X_1}-\\bar{X_2}] = E[\\bar{X_1}]-E[\\bar{X_2}]= \\mu_1-\\mu_2$\n", "
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;D^2[\\bar{X_1}-\\bar{X_2}]= D^2[\\bar{X_1}]+D^2[\\bar{X_2}]= \\sigma^2(\\frac{1}{n_1}+\\frac{1}{n_2})$\n", "\n", "- Estymator wariancji łącznej:\n", "\n", "$$S_P^2 = \\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1 + n_2 - 2}$$\n", "- Standaryzacja:\n", "\n", "$$\\displaystyle t = \\frac{(\\bar{X_1}-\\bar{X_2}) - E[\\bar{X_1}-\\bar{X_2}]}{{D[\\bar{X_1}-\\bar{X_2}]}} = \\frac{(\\bar{X_1}-\\bar{X_2}) - (\\mu_1 - \\mu_2)_0}{\\sqrt{S^2_P(\\frac{1}{n_1}+\\frac{1}{n_2})}}$$\n", "\n", "$$t = \\frac{(\\bar{X_1}-\\bar{X_2})}{\\sqrt{S^2_P(\\frac{1}{n_1}+\\frac{1}{n_2})}} \\sim t(n_1+n_2-2)$$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Postanowiono porównać zarobki absolwentów informatyki którzy ukończyli uczelnię A i uczelnię B. Losowo wybrano 60 absolwentów uczelni A, uzyskując średnią $\\bar{x}_1$ = 6.5 (w tys. złotych) oraz wariancję $s^2_1 = 3$, oraz 50 absolwentów uczelni B, uzyskując średnią $\\bar{x}_2$ = 6.2 (w tys. złotych) oraz wariancję $s^2_2 = 2$. Wiedząc, że rozkład zarobków jest normalny, a odchylenie standardowe takie samo w obu populacjach sprawdź na poziomie istotności $\\alpha$ = 0.05, czy są podstawy wnioskować, że średnia pensja absolwentów uczelni A różni się od pensji absolwentów uczelni B. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "$H_0:$\n", "
$H_1:$\n", "\n", "$\\alpha=0.05$\n", "\n", "$t(,) = $\n", "\n", "$C_{kr} = $\n", "\n", "$S_P = $\n", "\n", "$t = $\n", "\n", "$t ? C_{kr}$\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Test dla prób zależnych (sparowany)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- Założenia:\n", "\n", "$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;X_{11}, ..., X_{1n}$,\n", "
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;X_{21}, ..., X_{2n}$,\n", "
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;$obserwacje $(X_{1i}, X_{2i})$ parami zależne\n", "
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;D_i = X_{1i} - X_{2i}$\n", "
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;D \\sim N(\\mu,\\sigma)$\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- Układ hipotez:\n", "\n", "$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;H_0: \\mu_D = 0$\n", "
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;H_1: \\mu_D > / \\neq / < 0$\n", "\n", "- Statystyka: $\\bar{X}_D$\n", "\n", "- Standaryzacja:\n", "\n", "$$t = \\frac{\\bar{X}_D-\\mu_D}{\\frac{S_D}{\\sqrt{n}}}$$\n", "\n", "$$t = \\frac{\\bar{X}_D}{\\frac{S_D}{\\sqrt{n}}} \\sim t(n-1)$$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Przykład:\n", "\n", "\n", "| $X_1$ | $X_2$ | D |\n", "| --- | --- | --- |\n", "| 5 | 8 | -3 |\n", "| 2 | 1 | 1 |\n", "| 8 | 7 | 1 |\n", "| 7 | 4 | 3 |" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Rozkład F" ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [ { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "51757b6f9a7642cba7c7fb3c4f8f3fa9", "version_major": 2, "version_minor": 0 }, "text/plain": [ "interactive(children=(IntSlider(value=1, description='k1', min=1), IntSlider(value=1, description='k2', min=1)…" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/plain": [ "" ] }, "execution_count": 21, "metadata": {}, "output_type": "execute_result" } ], "source": [ "interact(f, k1=(1,100,1), k2=(1,100,1))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "$\\frac{\\chi_1^2/k_1}{\\chi_2^2/k_2} \\sim F(k_1, k_2)$\n", "\n", "$\\chi_1^2\\sim\\chi^2(k_1)$, $\\chi_2^2\\sim\\chi^2(k_2)$ niezależne" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Test na równość wariancji w dwóch populacjach" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- Układ hipotez:\n", "\n", "$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;H_0:\\sigma^2_1=\\sigma^2_2$\n", "
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;H_0:\\sigma^2_1> / \\neq / <\\sigma^2_2$\n", "- Statystyka:\n", "\n", "$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\frac{S_1^2}{S_2^2}$\n", "\n", "$\\chi^2 = \\frac{(n-1)S^2}{\\sigma^2}$ dla $X\\sim N(\\mu, \\sigma)$\n", " \n", "$\\frac{S_1^2}{S_2^2} = \\frac{\\chi^2_1\\color{blue}{\\sigma^2_1}/\\color{black}{(n_1-1)}}{\\chi^2_2\\color{blue}{\\sigma^2_2}/\\color{black}{(n_2-1)}}$\n", "\n", "jeśli $\\color{blue}{\\sigma^2_1}\\color{black}{=}\\color{blue}{\\sigma^2_2}$:\n", "\n", "$\\frac{S_1^2}{S_2^2} = \\frac{\\chi^2_1/\\color{black}{(n_1-1)}}{\\chi^2_2/\\color{black}{(n_2-1)}}$\n", "$$\\frac{S_1^2}{S_2^2} \\sim F(n_1-1, n_2-1)$$" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.9" }, "latex_envs": { "LaTeX_envs_menu_present": true, "autoclose": false, "autocomplete": true, "bibliofile": "biblio.bib", "cite_by": "apalike", "current_citInitial": 1, "eqLabelWithNumbers": true, "eqNumInitial": 1, "hotkeys": { "equation": "Ctrl-E", "itemize": "Ctrl-I" }, "labels_anchors": false, "latex_user_defs": false, "report_style_numbering": false, "user_envs_cfg": false } }, "nbformat": 4, "nbformat_minor": 4 }