%matplotlib inline
from ipywidgets import *
import matplotlib.pyplot as plt
from IPython.display import set_matplotlib_formats
set_matplotlib_formats('svg')
import numpy as np
import scipy.stats as stats
import matplotlib.patches as mpatches
def f(k1=1, k2=1):
fig, axes = plt.subplots(figsize=(8,5))
x = np.linspace(0, 4, 1000)
f = stats.f.pdf(x, k1, k2)
plt.plot(x, f)
plt.xlabel("x")
plt.ylabel("f(x)")
plt.title(r"F(k1="+str(k1)+", k2="+str(k2)+")")
plt.xlim(0,4)
plt.grid()
$\;\;\;\;\;\;\;\;\;\;\;\;\;X_{11}, ..., X_{n_1} \sim N(\mu_1,\sigma_1)$,
$\;\;\;\;\;\;\;\;\;\;\;\;\;X_{21}, ..., X_{n_2} \sim N(\mu_2, \sigma_2)$
$\;\;\;\;\;\;\;\;\;\;\;\;\;H_0: \mu_1 = \mu_2$
$\;\;\;\;\;\;\;\;\;\;\;\;\;H_1: \mu_1 > / \neq / < \mu_2$
$\;\;\;\;\;\;\;\;\;\;\;\;\;E[\bar{X_1}-\bar{X_2}] = E[\bar{X_1}+(-1\cdot\bar{X_2})] = E[\bar{X_1}]+E[-1\cdot\bar{X_2}] =E[\bar{X_1}]-E[\bar{X_2}]= \mu_1-\mu_2$
$\;\;\;\;\;\;\;\;\;\;\;\;\;D^2[\bar{X_1}-\bar{X_2}]=D^2[\bar{X_1}+(-1\cdot\bar{X_2})]=D^2[\bar{X_1}]+D^2[-1\cdot\bar{X_2}]= D^2[\bar{X_1}]\boldsymbol{+}D^2[\bar{X_2}]= \frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}$
Nieznane $\sigma_1^2$ i $\sigma_2^2$, duża próba: $$Z = \frac{(\bar{X_1}-\bar{X_2}) }{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}} \approx N(0,1)$$
df dla testu t: $${\displaystyle \mathrm {df} ={\frac {\left({\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}\right)^{2}}{{\frac {\left(S_{1}^{2}/n_{1}\right)^{2}}{n_{1}-1}}+{\frac {\left(S_{2}^{2}/n_{2}\right)^{2}}{n_{2}-1}}}}.}$$
Postanowiono porównać zarobki absolwentów informatyki którzy ukończyli uczelnię A i uczelnię B. Losowo wybrano 60 absolwentów uczelni A, uzyskując średnią $\bar{x}_1$ = 6.5 (w tys. złotych) oraz wariancję $s^2_1 = 3$, oraz 50 absolwentów uczelni B, uzyskując średnią $\bar{x}_2$ = 6.2 (w tys. złotych) oraz wariancję $s^2_2 = 2$. Wiedząc, że rozkład zarobków jest normalny sprawdź na poziomie istotności $\alpha$ = 0.05, czy są podstawy wnioskować, że średnia pensja absolwentów uczelni A różni się od pensji absolwentów uczelni B.
$H_0:\mu_1=\mu_2$
$H_1:\mu_1\neq\mu_2$
$\alpha=0.05$
$C_{kr} = (-\infty;-1.96)\cup(1.96;\infty)$
$Z = \frac{(\bar{X_1}-\bar{X_2}) }{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}}= \frac{6.5-6.2}{\sqrt{\frac{3}{60}+\frac{2}{50}}}=\frac{0.3}{\sqrt{\frac{15}{300}+\frac{12}{300}}}=\frac{0.3}{\sqrt{\frac{27}{300}}}=\frac{0.3}{\sqrt{\frac{9}{100}}}=\frac{0.3}{0.3}=1$
$Z \not\in C_{kr}$
Brak podstaw do odrzucenia $H_0$
$\;\;\;\;\;\;\;\;\;\;\;\;\;X_{11}, ..., X_{n_1} \sim N(\mu_1,\sigma_1)$,
$\;\;\;\;\;\;\;\;\;\;\;\;\;X_{21}, ..., X_{n_2} \sim N(\mu_2, \sigma_2)$,
$\;\;\;\;\;\;\;\;\;\;\;\;\;\sigma_1^2=\sigma_2^2$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\bar{X_1} - \bar{X_2}$
$\;\;\;\;\;\;\;\;\;\;\;\;\;E[\bar{X_1}-\bar{X_2}] = E[\bar{X_1}]-E[\bar{X_2}]= \mu_1-\mu_2$
$\;\;\;\;\;\;\;\;\;\;\;\;\;D^2[\bar{X_1}-\bar{X_2}]= D^2[\bar{X_1}]+D^2[\bar{X_2}]= \sigma^2(\frac{1}{n_1}+\frac{1}{n_2})$
\vspace{1em}
Postanowiono porównać zarobki absolwentów informatyki którzy ukończyli uczelnię A i uczelnię B. Losowo wybrano 60 absolwentów uczelni A, uzyskując średnią $\bar{x}_1$ = 6.5 (w tys. złotych) oraz wariancję $s^2_1 = 3$, oraz 50 absolwentów uczelni B, uzyskując średnią $\bar{x}_2$ = 6.2 (w tys. złotych) oraz wariancję $s^2_2 = 2$. Wiedząc, że rozkład zarobków jest normalny, a odchylenie standardowe takie samo w obu populacjach sprawdź na poziomie istotności $\alpha$ = 0.05, czy są podstawy wnioskować, że średnia pensja absolwentów uczelni A różni się od pensji absolwentów uczelni B.
$H_0:\mu_1=\mu_2$
$H_1:\mu_1\neq\mu_2$
$\alpha=0.05$
$t(0.975, 108) = 1.98$
$C_{kr} = (-\infty;-1.98)\cup(1.98;\infty)$
$S_P = \frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1 + n_2 - 2} = \frac{(60-1)*3+(50-1)*2}{60 + 50 - 2} = 2.546$
$t = \frac{(\bar{X_1}-\bar{X_2})}{\sqrt{S^2_P(\frac{1}{n_1}+\frac{1}{n_2})}}=\frac{6.5-6.2}{\sqrt{2.546*(\frac{1}{60}+\frac{1}{50}})} = 0.98$
$t \not\in C_{kr}$
Brak podstaw do odrzucenia $H_0$
$\;\;\;\;\;\;\;\;\;\;\;\;\;X_{11}, ..., X_{1n}$,
$\;\;\;\;\;\;\;\;\;\;\;\;\;X_{21}, ..., X_{2n}$,
$\;\;\;\;\;\;\;\;\;\;\;\;\;$obserwacje $(X_{1i}, X_{2i})$ parami zależne
$\;\;\;\;\;\;\;\;\;\;\;\;\;D_i = X_{1i} - X_{2i}$
$\;\;\;\;\;\;\;\;\;\;\;\;\;D \sim N(\mu,\sigma)$
$\;\;\;\;\;\;\;\;\;\;\;\;\;H_0: \mu_D = 0$
$\;\;\;\;\;\;\;\;\;\;\;\;\;H_1: \mu_D > / \neq / < 0$
Statystyka: $\bar{X}_D$
Standaryzacja:
Przykład:
$X_1$ | $X_2$ | D |
---|---|---|
5 | 8 | -3 |
2 | 1 | 1 |
8 | 7 | 1 |
7 | 4 | 3 |
interact(f, k1=(1,100,1), k2=(1,100,1))
$\frac{\chi_1^2/k_1}{\chi_2^2/k_2} \sim F(k_1, k_2)$
$\chi_1^2\sim\chi^2(k_1)$, $\chi_2^2\sim\chi^2(k_2)$ niezależne
$\;\;\;\;\;\;\;\;\;\;\;\;\;H_0:\sigma^2_1=\sigma^2_2$
$\;\;\;\;\;\;\;\;\;\;\;\;\;H_0:\sigma^2_1> / \neq / <\sigma^2_2$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\frac{S_1^2}{S_2^2}$
$\chi^2 = \frac{(n-1)S^2}{\sigma^2}$ dla $X\sim N(\mu, \sigma)$
$\frac{S_1^2}{S_2^2} = \frac{\chi^2_1\color{blue}{\sigma^2_1}/\color{black}{(n_1-1)}}{\chi^2_2\color{blue}{\sigma^2_2}/\color{black}{(n_2-1)}}$
jeśli $\color{blue}{\sigma^2_1}\color{black}{=}\color{blue}{\sigma^2_2}$:
$\frac{S_1^2}{S_2^2} = \frac{\chi^2_1/\color{black}{(n_1-1)}}{\chi^2_2/\color{black}{(n_2-1)}}$ $$\frac{S_1^2}{S_2^2} \sim F(n_1-1, n_2-1)$$