{
"cells": [
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [],
"source": [
"%matplotlib inline\n",
"from ipywidgets import *\n",
"import matplotlib.pyplot as plt\n",
"from IPython.display import set_matplotlib_formats\n",
"set_matplotlib_formats('svg')\n",
"import numpy as np\n",
"import scipy.stats as stats\n",
"import matplotlib.patches as mpatches"
]
},
{
"cell_type": "code",
"execution_count": 20,
"metadata": {},
"outputs": [],
"source": [
"def f(k1=1, k2=1):\n",
" fig, axes = plt.subplots(figsize=(8,5))\n",
" x = np.linspace(0, 4, 1000)\n",
" f = stats.f.pdf(x, k1, k2)\n",
" plt.plot(x, f)\n",
" plt.xlabel(\"x\")\n",
" plt.ylabel(\"f(x)\")\n",
" plt.title(r\"F(k1=\"+str(k1)+\", k2=\"+str(k2)+\")\")\n",
" plt.xlim(0,4)\n",
" plt.grid()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Testy dla dwóch zbiorowości"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"- test dla prób niezależnych (niesparowany)\n",
"- test dla prób niezależnych przy jednakowej wariancji\n",
"- test dla prób zależnych (sparowany)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Test dla prób niezależnych (niesparowany)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"- Założenia: \n",
"\n",
"$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;X_{11}, ..., X_{n_1} \\sim N(\\mu_1,\\sigma_1)$,\n",
"
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;X_{21}, ..., X_{n_2} \\sim N(\\mu_2, \\sigma_2)$\n",
"- Układ hipotez:\n",
"\n",
"$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;H_0: \\mu_1 = \\mu_2$\n",
"
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;H_1: \\mu_1 > / \\neq / < \\mu_2$\n",
"- Statystyka: $\\bar{X_1} - \\bar{X_2}$\n",
"\n",
"$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;E[\\bar{X_1}-\\bar{X_2}] = E[\\bar{X_1}+(-1\\cdot\\bar{X_2})] = E[\\bar{X_1}]+E[-1\\cdot\\bar{X_2}] =E[\\bar{X_1}]-E[\\bar{X_2}]= \\mu_1-\\mu_2$\n",
"
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;D^2[\\bar{X_1}-\\bar{X_2}]=D^2[\\bar{X_1}+(-1\\cdot\\bar{X_2})]=D^2[\\bar{X_1}]+D^2[-1\\cdot\\bar{X_2}]= D^2[\\bar{X_1}]\\boldsymbol{+}D^2[\\bar{X_2}]= \\frac{\\sigma_1^2}{n_1}+\\frac{\\sigma_2^2}{n_2}$\n",
"\n",
"- Standaryzacja:\n",
"\n",
"$$Z = \\frac{(\\bar{X_1}-\\bar{X_2}) - E[\\bar{X_1}-\\bar{X_2}]}{{D[\\bar{X_1}-\\bar{X_2}]}} = \\frac{(\\bar{X_1}-\\bar{X_2}) - (\\mu_1-\\mu_2)_0}{\\sqrt{\\frac{\\sigma_1^2}{n_1}+\\frac{\\sigma_2^2}{n_2}}}$$\n",
"\n",
"$$Z = \\frac{(\\bar{X_1}-\\bar{X_2}) }{\\sqrt{\\frac{\\sigma_1^2}{n_1}\\boldsymbol{+}\\frac{\\sigma_2^2}{n_2}}} \\sim N(0,1)$$"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"- Nieznane $\\sigma_1^2$ i $\\sigma_2^2$, duża próba:\n",
"$$Z = \\frac{(\\bar{X_1}-\\bar{X_2}) }{\\sqrt{\\frac{S_1^2}{n_1}+\\frac{S_2^2}{n_2}}} \\approx N(0,1)$$\n",
"\n",
"- df dla testu t:\n",
"$${\\displaystyle \\mathrm {df} ={\\frac {\\left({\\frac {S_{1}^{2}}{n_{1}}}+{\\frac {S_{2}^{2}}{n_{2}}}\\right)^{2}}{{\\frac {\\left(S_{1}^{2}/n_{1}\\right)^{2}}{n_{1}-1}}+{\\frac {\\left(S_{2}^{2}/n_{2}\\right)^{2}}{n_{2}-1}}}}.}$$"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Postanowiono porównać zarobki absolwentów informatyki którzy ukończyli uczelnię A i uczelnię B. Losowo wybrano 60 absolwentów uczelni A, uzyskując średnią $\\bar{x}_1$ = 6.5 (w tys. złotych) oraz wariancję $s^2_1 = 3$, oraz 50 absolwentów uczelni B, uzyskując średnią $\\bar{x}_2$ = 6.2 (w tys. złotych) oraz wariancję $s^2_2 = 2$. Wiedząc, że rozkład zarobków jest normalny sprawdź na poziomie istotności $\\alpha$ = 0.05, czy są podstawy wnioskować, że średnia pensja absolwentów uczelni A różni się od pensji absolwentów uczelni B. "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"$H_0:$\n",
"
$H_1:$\n",
"\n",
"$\\alpha=0.05$\n",
"\n",
"$C_{kr} = $\n",
"\n",
"$Z = $\n",
"\n",
"$Z ? C_{kr}$\n",
"\n",
"\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Test dla prób niezależnych przy jednakowej wariancji"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"- Założenia:\n",
"\n",
"$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;X_{11}, ..., X_{n_1} \\sim N(\\mu_1,\\sigma_1)$,\n",
"
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;X_{21}, ..., X_{n_2} \\sim N(\\mu_2, \\sigma_2)$,\n",
"
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\sigma_1^2=\\sigma_2^2$\n",
"- Statystyka:\n",
"\n",
"$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\bar{X_1} - \\bar{X_2}$\n",
"
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;E[\\bar{X_1}-\\bar{X_2}] = E[\\bar{X_1}]-E[\\bar{X_2}]= \\mu_1-\\mu_2$\n",
"
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;D^2[\\bar{X_1}-\\bar{X_2}]= D^2[\\bar{X_1}]+D^2[\\bar{X_2}]= \\sigma^2(\\frac{1}{n_1}+\\frac{1}{n_2})$\n",
"\n",
"- Estymator wariancji łącznej:\n",
"\n",
"$$S_P^2 = \\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1 + n_2 - 2}$$\n",
"- Standaryzacja:\n",
"\n",
"$$\\displaystyle t = \\frac{(\\bar{X_1}-\\bar{X_2}) - E[\\bar{X_1}-\\bar{X_2}]}{{D[\\bar{X_1}-\\bar{X_2}]}} = \\frac{(\\bar{X_1}-\\bar{X_2}) - (\\mu_1 - \\mu_2)_0}{\\sqrt{S^2_P(\\frac{1}{n_1}+\\frac{1}{n_2})}}$$\n",
"\n",
"$$t = \\frac{(\\bar{X_1}-\\bar{X_2})}{\\sqrt{S^2_P(\\frac{1}{n_1}+\\frac{1}{n_2})}} \\sim t(n_1+n_2-2)$$"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Postanowiono porównać zarobki absolwentów informatyki którzy ukończyli uczelnię A i uczelnię B. Losowo wybrano 60 absolwentów uczelni A, uzyskując średnią $\\bar{x}_1$ = 6.5 (w tys. złotych) oraz wariancję $s^2_1 = 3$, oraz 50 absolwentów uczelni B, uzyskując średnią $\\bar{x}_2$ = 6.2 (w tys. złotych) oraz wariancję $s^2_2 = 2$. Wiedząc, że rozkład zarobków jest normalny, a odchylenie standardowe takie samo w obu populacjach sprawdź na poziomie istotności $\\alpha$ = 0.05, czy są podstawy wnioskować, że średnia pensja absolwentów uczelni A różni się od pensji absolwentów uczelni B. "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"$H_0:$\n",
"
$H_1:$\n",
"\n",
"$\\alpha=0.05$\n",
"\n",
"$t(,) = $\n",
"\n",
"$C_{kr} = $\n",
"\n",
"$S_P = $\n",
"\n",
"$t = $\n",
"\n",
"$t ? C_{kr}$\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Test dla prób zależnych (sparowany)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"- Założenia:\n",
"\n",
"$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;X_{11}, ..., X_{1n}$,\n",
"
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;X_{21}, ..., X_{2n}$,\n",
"
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;$obserwacje $(X_{1i}, X_{2i})$ parami zależne\n",
"
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;D_i = X_{1i} - X_{2i}$\n",
"
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;D \\sim N(\\mu,\\sigma)$\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"- Układ hipotez:\n",
"\n",
"$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;H_0: \\mu_D = 0$\n",
"
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;H_1: \\mu_D > / \\neq / < 0$\n",
"\n",
"- Statystyka: $\\bar{X}_D$\n",
"\n",
"- Standaryzacja:\n",
"\n",
"$$t = \\frac{\\bar{X}_D-\\mu_D}{\\frac{S_D}{\\sqrt{n}}}$$\n",
"\n",
"$$t = \\frac{\\bar{X}_D}{\\frac{S_D}{\\sqrt{n}}} \\sim t(n-1)$$"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Przykład:\n",
"\n",
"\n",
"| $X_1$ | $X_2$ | D |\n",
"| --- | --- | --- |\n",
"| 5 | 8 | -3 |\n",
"| 2 | 1 | 1 |\n",
"| 8 | 7 | 1 |\n",
"| 7 | 4 | 3 |"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Rozkład F"
]
},
{
"cell_type": "code",
"execution_count": 21,
"metadata": {},
"outputs": [
{
"data": {
"application/vnd.jupyter.widget-view+json": {
"model_id": "51757b6f9a7642cba7c7fb3c4f8f3fa9",
"version_major": 2,
"version_minor": 0
},
"text/plain": [
"interactive(children=(IntSlider(value=1, description='k1', min=1), IntSlider(value=1, description='k2', min=1)…"
]
},
"metadata": {},
"output_type": "display_data"
},
{
"data": {
"text/plain": [
""
]
},
"execution_count": 21,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"interact(f, k1=(1,100,1), k2=(1,100,1))"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"$\\frac{\\chi_1^2/k_1}{\\chi_2^2/k_2} \\sim F(k_1, k_2)$\n",
"\n",
"$\\chi_1^2\\sim\\chi^2(k_1)$, $\\chi_2^2\\sim\\chi^2(k_2)$ niezależne"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Test na równość wariancji w dwóch populacjach"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"- Układ hipotez:\n",
"\n",
"$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;H_0:\\sigma^2_1=\\sigma^2_2$\n",
"
$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;H_0:\\sigma^2_1> / \\neq / <\\sigma^2_2$\n",
"- Statystyka:\n",
"\n",
"$\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\;\\frac{S_1^2}{S_2^2}$\n",
"\n",
"$\\chi^2 = \\frac{(n-1)S^2}{\\sigma^2}$ dla $X\\sim N(\\mu, \\sigma)$\n",
" \n",
"$\\frac{S_1^2}{S_2^2} = \\frac{\\chi^2_1\\color{blue}{\\sigma^2_1}/\\color{black}{(n_1-1)}}{\\chi^2_2\\color{blue}{\\sigma^2_2}/\\color{black}{(n_2-1)}}$\n",
"\n",
"jeśli $\\color{blue}{\\sigma^2_1}\\color{black}{=}\\color{blue}{\\sigma^2_2}$:\n",
"\n",
"$\\frac{S_1^2}{S_2^2} = \\frac{\\chi^2_1/\\color{black}{(n_1-1)}}{\\chi^2_2/\\color{black}{(n_2-1)}}$\n",
"$$\\frac{S_1^2}{S_2^2} \\sim F(n_1-1, n_2-1)$$"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.6.9"
},
"latex_envs": {
"LaTeX_envs_menu_present": true,
"autoclose": false,
"autocomplete": true,
"bibliofile": "biblio.bib",
"cite_by": "apalike",
"current_citInitial": 1,
"eqLabelWithNumbers": true,
"eqNumInitial": 1,
"hotkeys": {
"equation": "Ctrl-E",
"itemize": "Ctrl-I"
},
"labels_anchors": false,
"latex_user_defs": false,
"report_style_numbering": false,
"user_envs_cfg": false
}
},
"nbformat": 4,
"nbformat_minor": 4
}