In [1]:
%matplotlib inline
from ipywidgets import *
import matplotlib.pyplot as plt
from IPython.display import set_matplotlib_formats
set_matplotlib_formats('svg')
import numpy as np
import scipy.stats as stats
import matplotlib.patches as mpatches
In [20]:
def f(k1=1, k2=1):
    fig, axes = plt.subplots(figsize=(8,5))
    x = np.linspace(0, 4, 1000)
    f = stats.f.pdf(x, k1, k2)
    plt.plot(x, f)
    plt.xlabel("x")
    plt.ylabel("f(x)")
    plt.title(r"F(k1="+str(k1)+", k2="+str(k2)+")")
    plt.xlim(0,4)
    plt.grid()

Testy dla dwóch zbiorowości

  • test dla prób niezależnych (niesparowany)
  • test dla prób niezależnych przy jednakowej wariancji
  • test dla prób zależnych (sparowany)

Test dla prób niezależnych (niesparowany)

  • Założenia:

$\;\;\;\;\;\;\;\;\;\;\;\;\;X_{11}, ..., X_{n_1} \sim N(\mu_1,\sigma_1)$,
$\;\;\;\;\;\;\;\;\;\;\;\;\;X_{21}, ..., X_{n_2} \sim N(\mu_2, \sigma_2)$

  • Układ hipotez:

$\;\;\;\;\;\;\;\;\;\;\;\;\;H_0: \mu_1 = \mu_2$
$\;\;\;\;\;\;\;\;\;\;\;\;\;H_1: \mu_1 > / \neq / < \mu_2$

  • Statystyka: $\bar{X_1} - \bar{X_2}$

$\;\;\;\;\;\;\;\;\;\;\;\;\;E[\bar{X_1}-\bar{X_2}] = E[\bar{X_1}+(-1\cdot\bar{X_2})] = E[\bar{X_1}]+E[-1\cdot\bar{X_2}] =E[\bar{X_1}]-E[\bar{X_2}]= \mu_1-\mu_2$
$\;\;\;\;\;\;\;\;\;\;\;\;\;D^2[\bar{X_1}-\bar{X_2}]=D^2[\bar{X_1}+(-1\cdot\bar{X_2})]=D^2[\bar{X_1}]+D^2[-1\cdot\bar{X_2}]= D^2[\bar{X_1}]\boldsymbol{+}D^2[\bar{X_2}]= \frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}$

  • Standaryzacja: %\vspace{1em}
$$Z = \frac{(\bar{X_1}-\bar{X_2}) - E[\bar{X_1}-\bar{X_2}]}{{D[\bar{X_1}-\bar{X_2}]}} = \frac{(\bar{X_1}-\bar{X_2}) - (\mu_1-\mu_2)_0}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$$$$Z = \frac{(\bar{X_1}-\bar{X_2}) }{\sqrt{\frac{\sigma_1^2}{n_1}\boldsymbol{+}\frac{\sigma_2^2}{n_2}}} \sim N(0,1)$$
  • Nieznane $\sigma_1^2$ i $\sigma_2^2$, duża próba: $$Z = \frac{(\bar{X_1}-\bar{X_2}) }{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}} \approx N(0,1)$$

  • df dla testu t: $${\displaystyle \mathrm {df} ={\frac {\left({\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}\right)^{2}}{{\frac {\left(S_{1}^{2}/n_{1}\right)^{2}}{n_{1}-1}}+{\frac {\left(S_{2}^{2}/n_{2}\right)^{2}}{n_{2}-1}}}}.}$$

Postanowiono porównać zarobki absolwentów informatyki którzy ukończyli uczelnię A i uczelnię B. Losowo wybrano 60 absolwentów uczelni A, uzyskując średnią $\bar{x}_1$ = 6.5 (w tys. złotych) oraz wariancję $s^2_1 = 3$, oraz 50 absolwentów uczelni B, uzyskując średnią $\bar{x}_2$ = 6.2 (w tys. złotych) oraz wariancję $s^2_2 = 2$. Wiedząc, że rozkład zarobków jest normalny sprawdź na poziomie istotności $\alpha$ = 0.05, czy są podstawy wnioskować, że średnia pensja absolwentów uczelni A różni się od pensji absolwentów uczelni B.

$H_0:\mu_1=\mu_2$
$H_1:\mu_1\neq\mu_2$

$\alpha=0.05$

$C_{kr} = (-\infty;-1.96)\cup(1.96;\infty)$

$Z = \frac{(\bar{X_1}-\bar{X_2}) }{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}}= \frac{6.5-6.2}{\sqrt{\frac{3}{60}+\frac{2}{50}}}=\frac{0.3}{\sqrt{\frac{15}{300}+\frac{12}{300}}}=\frac{0.3}{\sqrt{\frac{27}{300}}}=\frac{0.3}{\sqrt{\frac{9}{100}}}=\frac{0.3}{0.3}=1$

$Z \not\in C_{kr}$

Brak podstaw do odrzucenia $H_0$

Test dla prób niezależnych przy jednakowej wariancji

  • Założenia:

$\;\;\;\;\;\;\;\;\;\;\;\;\;X_{11}, ..., X_{n_1} \sim N(\mu_1,\sigma_1)$,
$\;\;\;\;\;\;\;\;\;\;\;\;\;X_{21}, ..., X_{n_2} \sim N(\mu_2, \sigma_2)$,
$\;\;\;\;\;\;\;\;\;\;\;\;\;\sigma_1^2=\sigma_2^2$

  • Statystyka:

$\;\;\;\;\;\;\;\;\;\;\;\;\;\bar{X_1} - \bar{X_2}$
$\;\;\;\;\;\;\;\;\;\;\;\;\;E[\bar{X_1}-\bar{X_2}] = E[\bar{X_1}]-E[\bar{X_2}]= \mu_1-\mu_2$
$\;\;\;\;\;\;\;\;\;\;\;\;\;D^2[\bar{X_1}-\bar{X_2}]= D^2[\bar{X_1}]+D^2[\bar{X_2}]= \sigma^2(\frac{1}{n_1}+\frac{1}{n_2})$ \vspace{1em}

  • Estymator wariancji łącznej:
$$S_P^2 = \frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1 + n_2 - 2}$$
  • Standaryzacja:
$$\displaystyle t = \frac{(\bar{X_1}-\bar{X_2}) - E[\bar{X_1}-\bar{X_2}]}{{D[\bar{X_1}-\bar{X_2}]}} = \frac{(\bar{X_1}-\bar{X_2}) - (\mu_1 - \mu_2)_0}{\sqrt{S^2_P(\frac{1}{n_1}+\frac{1}{n_2})}}$$$$t = \frac{(\bar{X_1}-\bar{X_2})}{\sqrt{S^2_P(\frac{1}{n_1}+\frac{1}{n_2})}} \sim t(n_1+n_2-2)$$

Postanowiono porównać zarobki absolwentów informatyki którzy ukończyli uczelnię A i uczelnię B. Losowo wybrano 60 absolwentów uczelni A, uzyskując średnią $\bar{x}_1$ = 6.5 (w tys. złotych) oraz wariancję $s^2_1 = 3$, oraz 50 absolwentów uczelni B, uzyskując średnią $\bar{x}_2$ = 6.2 (w tys. złotych) oraz wariancję $s^2_2 = 2$. Wiedząc, że rozkład zarobków jest normalny, a odchylenie standardowe takie samo w obu populacjach sprawdź na poziomie istotności $\alpha$ = 0.05, czy są podstawy wnioskować, że średnia pensja absolwentów uczelni A różni się od pensji absolwentów uczelni B.

$H_0:\mu_1=\mu_2$
$H_1:\mu_1\neq\mu_2$

$\alpha=0.05$

$t(0.975, 108) = 1.98$

$C_{kr} = (-\infty;-1.98)\cup(1.98;\infty)$

$S_P = \frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1 + n_2 - 2} = \frac{(60-1)*3+(50-1)*2}{60 + 50 - 2} = 2.546$

$t = \frac{(\bar{X_1}-\bar{X_2})}{\sqrt{S^2_P(\frac{1}{n_1}+\frac{1}{n_2})}}=\frac{6.5-6.2}{\sqrt{2.546*(\frac{1}{60}+\frac{1}{50}})} = 0.98$

$t \not\in C_{kr}$

Brak podstaw do odrzucenia $H_0$

Test dla prób zależnych (sparowany)

  • Założenia:

$\;\;\;\;\;\;\;\;\;\;\;\;\;X_{11}, ..., X_{1n}$,
$\;\;\;\;\;\;\;\;\;\;\;\;\;X_{21}, ..., X_{2n}$,
$\;\;\;\;\;\;\;\;\;\;\;\;\;$obserwacje $(X_{1i}, X_{2i})$ parami zależne
$\;\;\;\;\;\;\;\;\;\;\;\;\;D_i = X_{1i} - X_{2i}$
$\;\;\;\;\;\;\;\;\;\;\;\;\;D \sim N(\mu,\sigma)$

  • Układ hipotez:

$\;\;\;\;\;\;\;\;\;\;\;\;\;H_0: \mu_D = 0$
$\;\;\;\;\;\;\;\;\;\;\;\;\;H_1: \mu_D > / \neq / < 0$

  • Statystyka: $\bar{X}_D$

  • Standaryzacja:

$$t = \frac{\bar{X}_D-\mu_D}{\frac{S_D}{\sqrt{n}}}$$$$t = \frac{\bar{X}_D}{\frac{S_D}{\sqrt{n}}} \sim t(n-1)$$

Przykład:

$X_1$ $X_2$ D
5 8 -3
2 1 1
8 7 1
7 4 3

Rozkład F

In [21]:
interact(f, k1=(1,100,1), k2=(1,100,1))
Out[21]:
<function __main__.f(k1=1, k2=1)>

$\frac{\chi_1^2/k_1}{\chi_2^2/k_2} \sim F(k_1, k_2)$

$\chi_1^2\sim\chi^2(k_1)$, $\chi_2^2\sim\chi^2(k_2)$ niezależne

Test na równość wariancji w dwóch populacjach

  • Układ hipotez:

$\;\;\;\;\;\;\;\;\;\;\;\;\;H_0:\sigma^2_1=\sigma^2_2$
$\;\;\;\;\;\;\;\;\;\;\;\;\;H_0:\sigma^2_1> / \neq / <\sigma^2_2$

  • Statystyka:

$\;\;\;\;\;\;\;\;\;\;\;\;\;\frac{S_1^2}{S_2^2}$

$\chi^2 = \frac{(n-1)S^2}{\sigma^2}$ dla $X\sim N(\mu, \sigma)$

$\frac{S_1^2}{S_2^2} = \frac{\chi^2_1\color{blue}{\sigma^2_1}/\color{black}{(n_1-1)}}{\chi^2_2\color{blue}{\sigma^2_2}/\color{black}{(n_2-1)}}$

jeśli $\color{blue}{\sigma^2_1}\color{black}{=}\color{blue}{\sigma^2_2}$:

$\frac{S_1^2}{S_2^2} = \frac{\chi^2_1/\color{black}{(n_1-1)}}{\chi^2_2/\color{black}{(n_2-1)}}$ $$\frac{S_1^2}{S_2^2} \sim F(n_1-1, n_2-1)$$