Statystyka i Analiza danych¶

Laboratorium 4 - Estymatory¶

Ćwiczenie 1: Badanie obciążenia estymatorów średniej i wariancji¶

Na początku utworzymy populację, losując 1000 liczb z rozkładu jednostajnego:

r_populacji  <- 1000
populacja  <- runif(r_populacji, 5, 17)
?apply

Następnie wygenerujemy 200 prób o rozmiarze 15:

r_proby  <- 15
l_prob  <- 200
losowe_indeksy  <- sample(1:r_populacji, size=r_proby*l_prob, replace=TRUE)
proby  <- matrix(populacja[losowe_indeksy], r_proby, l_prob)
colnames(proby)  <- paste(rep("próba",ncol(proby)),c(1:ncol(proby)))
proby

Oblicz statystyki opisowe dla populacji:

pop_var  <- function(data)
{
    mean((data - mean(data))^2)
}

opis_popul  <- c("średnia"=mean(populacja), "wariancja"=pop_var(populacja), "odchylenie standardowe"=sqrt(pop_var(populacja)))
opis_popul

Dla każdej próby wyznacz estymator średniej, estymator wariancji oraz obciążoną wersję estymatora wariancji. Możesz użyć funkcji apply.

estymator_srednia  <- apply(proby, 2, mean)
estymator_wariancja  <- apply(proby, 2, var)
obciazony_estymator_wariancja  <- apply(proby, 2, pop_var)

Następnie dla każdego z estymatorów wyznacz wartość oczekiwaną (uśredniając po próbach) oraz obciążenie:

wiersze  <- c("Wartość oczekiwana", "Obciążenie")
kolumny  <- c("Estymator średnia", "Estymator wariancja", "Estymator obciążony wariancja")

wartosci_oczekiwane  <- c(mean(estymator_srednia), mean(estymator_wariancja), mean(obciazony_estymator_wariancja))  
obciazenia  <- c(wartosci_oczekiwane[1]-opis_popul[1], wartosci_oczekiwane[2]-opis_popul[2], wartosci_oczekiwane[3]-opis_popul[2])

matrix(c(rbind(wartosci_oczekiwane, obciazenia)), length(wiersze), length(kolumny), dimnames=list(wiersze, kolumny))

Dla estymatora wartości średniej policz dodatkowo odchylenie standardowe i teoretyczne odchylenie standardowe:

c("Odchylenie standardowe"=sd(estymator_srednia),"Teoretyczne"=opis_popul[3]/sqrt(r_proby))

Utwórz histogram wartości estymatora średniej:

hist(estymator_srednia, main="Estymator średnia", xlab="Wartość estymatora")

Ćwiczenie 2: Badanie estymacji przedziałowej.¶

Na początek wygenerujemy 200 prób o rozmiarze 20 z rozkładu normalnego.

r_proby  <- 15
l_prob  <- 200
m  <- 0
sigma  <- 1

proby  <- matrix(rnorm(r_proby*l_prob, m, sigma), r_proby, l_prob)
colnames(proby)  <- paste(rep("próba",ncol(proby)),c(1:ncol(proby)))
proby

Wyznacz kolejno dla każdej próby estymator średniej (możesz użyć funkcji apply), lewy i prawy koniec przedziału, szerokość przedziału oraz wypisz czy prawdziwa średnia znalazła się w przedziale.

poziom_istotnosci  <- 0.05
kwantyl  <- qnorm(1-poziom_istotnosci/2, m, sigma)

estymator_srednia  <- apply(proby, 2, mean)
l_koniec_przedzialu  <- estymator_srednia - kwantyl*sigma/sqrt(r_proby)
p_koniec_przedzialu  <- estymator_srednia + kwantyl*sigma/sqrt(r_proby)
szerokosc_przedzialu  <- p_koniec_przedzialu - l_koniec_przedzialu
czy_srednia_w_przedziale  <- (m > l_koniec_przedzialu) & (m < p_koniec_przedzialu)

round(matrix(c(rbind(estymator_srednia, l_koniec_przedzialu, p_koniec_przedzialu, szerokosc_przedzialu, czy_srednia_w_przedziale)), 5, l_prob, dimnames = list(c("Estymator średniej", "L koniec przedziału", "P koniec przedziału", "Szerokość przedziału", "Średnia w przedziale?"),colnames(proby))),3)

Następnie wyznacz prawdopodobieństwo uśredniając po 200 próbach. Czy zmiana m i sigma wpływa na to prawdopodobieństwo?

c("Pr(średnia w przedziale)"=sum(czy_srednia_w_przedziale)/l_prob)

Ćwiczenie 3: Badanie zgodności estymatorów średniej i wariancji¶

Zacznij od wygenerowania n losowych liczb z rozkładu normalnego:

n  <- 1000
m  <- 0
sigma  <- 1

losowe  <- rnorm(n, m, sigma)

Wyznacz wartości estymatora średniej oraz wariancji i porównaj ją z prawdziwymi wartościami dla rosnącej ilości zmiennych (możesz użyć funkcji sample). Błąd przyjmij w sensie kwadratu różnicy między wartością prawdziwą a estymowaną.

estymatory  <- matrix(rep(0, (n-1)*4), n-1, 4, dimnames=list(1:(n-1),c("Średnia", "Wariancja", "Błąd średnia", "Błąd wariancja")))

for (i in (2:n))
{
    estymatory[i-1,"Średnia"]  <- mean(losowe[sample(1:n, i, replace=FALSE)])
    estymatory[i-1,"Wariancja"]  <- var(losowe[sample(1:n, i, replace=FALSE)])
}

estymatory[,"Błąd średnia"]  <- (estymatory[,"Średnia"] - m)^2
estymatory[,"Błąd wariancja"]  <- (estymatory[,"Wariancja"] - sigma^2)^2

estymatory

plot_estimate  <- function(data, estimate_name, error_name, plot_name, true_value)
{
    y_limits  <- c(min(0,min(data[,estimate_name])),max(max(data[,estimate_name]),max(data[,error_name])))
    plot(data[,estimate_name], t='l',col='blue', ylab="wartość", xlab="n", main=plot_name, ylim=(y_limits))
    lines(data[,error_name], col='red')
    abline(h=true_value, col='green')
    e_name  <- tolower(estimate_name)
    legend('topright', c(paste("Estymator",e_name), error_name, paste("Prawdziwa wartość",e_name)), lty=1, col=c('blue', 'red', 'green'))
}

Utwórz wykresy estymatora średniej oraz wariancji i ich błędu dla rosnącej liczby zmiennych. Skorzystaj z funkcji plot_estimate. Wykres dla estymatora średniej:

plot_estimate(estymatory, "Średnia", "Błąd średnia", "Estymator średniej", m)

Wykres dla estymatora wariancji:

plot_estimate(estymatory, "Wariancja", "Błąd wariancja", "Estymator wariancji", sigma^2)

próba 1	próba 2	próba 3	próba 4	próba 5	próba 6	próba 7	próba 8	próba 9	próba 10	⋯	próba 191	próba 192	próba 193	próba 194	próba 195	próba 196	próba 197	próba 198	próba 199	próba 200
5.090473	9.531162	11.077209	11.924562	5.040818	6.306089	10.842954	13.525753	5.157653	13.784876	⋯	9.661226	6.224754	9.998815	9.239246	15.120868	15.439139	13.990314	7.289556	9.655697	11.425884
11.077209	9.441036	10.944899	12.105779	13.630801	15.120868	7.328965	8.236149	10.217869	10.489796	⋯	5.824588	9.765745	7.283876	10.043012	5.923549	15.588200	7.506339	13.690954	7.687097	13.525753
10.349103	5.559345	14.611807	9.671344	7.354082	12.353102	5.854218	16.272015	11.528428	12.370039	⋯	13.244194	14.810264	6.186335	7.111372	12.596882	13.835927	7.279371	16.280973	12.331548	9.938966
6.418535	7.980613	6.115911	10.357332	10.341798	16.305922	14.459162	15.439139	16.945354	14.805233	⋯	16.635241	15.936753	14.157042	10.528866	12.602081	10.930208	13.938115	6.021693	11.759448	12.146143
16.016287	9.447859	6.629253	13.571826	7.506339	11.225856	14.097645	15.669803	10.189816	10.422228	⋯	7.214923	9.700113	6.000483	12.054474	11.425884	15.274570	16.172172	11.494909	10.707435	9.118485
7.406108	16.330472	10.146011	5.941490	7.290848	5.157653	9.078455	16.574774	6.590717	5.260609	⋯	16.538261	10.861794	14.805233	13.989363	13.647917	9.872073	13.770284	9.719851	9.105902	12.233143
10.780204	7.643956	12.973730	6.393574	11.199478	14.965076	11.636306	10.602594	6.135890	16.537157	⋯	5.900257	7.412604	12.402200	13.262756	7.589483	8.015120	8.410068	9.957094	16.669534	7.455637
5.346186	5.595429	8.215567	9.998815	6.686075	9.479399	10.120026	8.348883	7.412680	10.697079	⋯	12.075405	5.047298	12.817336	15.120868	6.881843	7.838675	13.003592	14.499703	7.687097	15.780563
15.187118	5.655631	15.274570	15.653364	5.785518	14.852689	13.536837	14.467451	8.421974	5.783551	⋯	9.630501	11.213953	6.203984	14.867456	7.412680	16.669534	9.873249	7.476134	14.867456	9.408196
13.201861	8.348883	13.051408	10.177104	11.534080	6.972079	8.866915	7.206561	14.867456	13.990314	⋯	10.048746	7.500733	9.990852	5.559345	13.867569	10.654791	7.854571	12.689158	12.353102	14.947872
15.218593	14.965076	15.816933	7.980613	13.525753	9.543479	16.758515	7.290848	11.073738	15.392892	⋯	15.906098	10.537789	6.867400	10.944899	7.283876	6.485220	12.882812	11.922436	6.115911	7.880756
8.836202	15.854265	7.337266	11.817209	14.389441	8.075465	15.967813	5.705648	12.806414	14.433284	⋯	6.331958	7.216022	9.030761	8.679501	14.675777	11.835047	12.780099	14.911521	15.082783	12.683963
10.537789	11.626750	15.857039	9.447859	14.983683	8.910531	9.441283	15.936753	5.090473	5.833617	⋯	13.181710	9.441036	9.556061	14.459580	16.669534	16.139677	10.602594	10.420283	14.294587	14.332387
15.392892	15.992736	15.360757	14.867456	15.881429	7.435355	10.057399	9.348889	5.595429	11.223218	⋯	13.676734	8.709660	8.983186	11.372554	15.163221	16.083443	7.980613	15.538341	15.657009	13.867569
9.265038	7.328965	7.363897	9.093864	15.925035	14.495183	10.353527	8.007669	6.392426	9.013035	⋯	5.054137	10.789040	16.771598	15.191523	12.668991	6.954714	13.309649	11.207076	10.724627	14.651832

	Estymator średnia	Estymator wariancja	Estymator obciążony wariancja
Wartość oczekiwana	11.11107732	11.84694004	11.0571440
Obciążenie	0.07321926	0.06032639	-0.7294696

próba 1	próba 2	próba 3	próba 4	próba 5	próba 6	próba 7	próba 8	próba 9	próba 10	⋯	próba 191	próba 192	próba 193	próba 194	próba 195	próba 196	próba 197	próba 198	próba 199	próba 200
-0.0403578	-0.41816814	0.3961205	-1.24030628	1.39457080	0.3649616	0.4577070	0.42259796	-0.02573978	0.19466798	⋯	1.13863100	-0.85928447	1.6174110	0.6887837	0.53246988	-1.5812012	1.41578954	0.74318130	0.85513974	1.0736531
-1.2480173	-0.67189550	0.2505117	-0.13510912	0.36899385	0.8008948	-0.8672830	2.36558336	0.82911507	-1.01277911	⋯	-0.32405786	-0.08076494	1.3451022	0.6145162	-0.14427005	-0.9166912	0.14728451	-0.56793863	1.37617476	-0.7422623
0.1452996	0.31472500	-0.1248435	1.66233522	-0.04645893	-1.4343928	-0.2689670	0.11887111	-1.41655233	0.99680734	⋯	-1.26053098	-0.95847386	-0.9205454	-1.2780035	-0.82999361	1.9164306	-0.06903364	-0.08113482	-0.50092190	-0.6281162
0.6169853	-0.95671998	-2.3410437	-0.51757929	0.87569727	-0.9056770	-0.7564520	0.76245439	1.41028008	0.06801464	⋯	-0.31991924	1.21416019	0.2545204	0.5609322	0.42835233	-0.9787191	-1.31823845	-1.01492502	0.37794165	-0.2440886
0.3707519	0.13742174	1.0084633	0.79872859	1.00090393	-2.2002530	1.5138453	0.61837680	0.33591101	0.42138373	⋯	0.90123467	0.68238865	-1.0294719	0.1473079	-0.71714051	1.5748465	-1.32422825	-1.16840528	1.45646314	0.8256243
-0.7297799	0.01600482	-0.8971800	0.09951399	1.09734292	0.6545646	0.9289258	0.65596073	-1.77044843	2.29431698	⋯	0.50590145	-0.73352465	-1.1173295	-0.4017463	0.68321458	-0.8745530	1.06782528	0.36681272	-0.71536971	0.2117687
0.4664910	0.03879302	-0.2449688	-0.92304831	2.09242640	0.3792123	0.9631270	-1.15593068	0.50841947	-0.98092244	⋯	-0.34307909	0.01056142	0.8545278	1.4515137	0.09038523	0.7956648	-0.78697520	0.46383152	-0.11453222	-0.5919392
0.4083881	1.17395350	-0.1469648	0.43258669	0.18886979	-0.4777084	0.5648038	-0.48795792	-0.85014503	0.95284852	⋯	-0.09472571	0.64250341	0.4340741	0.7838183	-1.08701247	-2.7524565	1.70605357	1.02697713	-0.08750955	1.7845503
0.6618600	0.40955642	-0.7694962	-1.75262567	0.57194913	0.5984569	0.1774345	0.02870057	-0.05690697	0.84954575	⋯	0.05710091	1.64613744	-0.9610007	-1.2474082	1.53850265	-1.0197699	1.37362860	-0.60651187	1.07892693	1.5949356
-0.2946368	0.46100666	-1.0754063	1.17522257	-0.89498166	-0.3764826	0.3006230	-0.02762161	-1.80077436	1.23524858	⋯	1.67244923	-0.23607629	0.6970959	1.3764406	-1.67781527	1.9149260	0.29773724	0.41141705	1.40105108	0.7397867
-0.6224272	-1.77209491	-0.2827670	1.03045667	0.17692054	0.4948358	-1.4598398	-0.63402192	-0.94396604	-0.33695650	⋯	2.12408876	-1.65780593	1.0140805	-1.7570023	0.19997784	1.5127600	1.01199258	-0.22737471	0.85654507	1.2147040
-0.1700453	1.34313664	-2.6529380	0.53645428	1.68965209	-0.2726029	0.6795302	1.69804007	-0.10296937	1.54001529	⋯	2.14914540	0.87606839	-0.9173406	0.6120444	-0.50455424	0.2112117	-1.09224426	1.03640534	0.85293171	1.4079055
-0.4042395	0.72171377	0.6944428	0.06696101	1.15148264	0.1537419	-2.2274933	0.43317433	-0.34528715	-1.49683498	⋯	0.69033035	-1.36349102	0.4652611	1.0657573	0.53256494	-0.1921526	-1.01077471	-0.12649158	0.57345863	-1.1199691
-0.5353426	0.07408932	0.2623433	1.94108347	-0.02142428	-0.1626746	-0.4511776	-1.17403211	-0.42914061	0.12207159	⋯	1.02122405	-0.63842867	0.1101108	-0.2521900	1.24535185	0.6066658	0.75141238	-0.03084774	-2.08231141	-2.1581913
-0.6542361	-0.41877875	0.2010662	1.09747790	-0.44233834	-0.1194830	1.3090253	-0.25517374	0.83957447	0.59239513	⋯	0.87329986	-0.40888854	-0.5388210	0.1094405	1.18717125	0.2013147	-1.71442459	0.48748352	0.43803738	-1.1176331

	próba 1	próba 2	próba 3	próba 4	próba 5	próba 6	próba 7	próba 8	próba 9	próba 10	⋯	próba 191	próba 192	próba 193	próba 194	próba 195	próba 196	próba 197	próba 198	próba 199	próba 200
Estymator średniej	-0.135	0.030	-0.382	0.285	0.614	-0.167	0.058	0.225	-0.255	0.363	⋯	0.586	-0.124	0.087	0.165	0.098	0.028	0.030	0.047	0.384	0.150
L koniec przedziału	-0.641	-0.476	-0.888	-0.221	0.108	-0.673	-0.448	-0.281	-0.761	-0.143	⋯	0.080	-0.630	-0.419	-0.341	-0.408	-0.478	-0.476	-0.459	-0.122	-0.356
P koniec przedziału	0.371	0.536	0.125	0.791	1.120	0.339	0.564	0.731	0.251	0.869	⋯	1.092	0.382	0.593	0.671	0.605	0.534	0.536	0.554	0.890	0.656
Szerokość przedziału	1.012	1.012	1.012	1.012	1.012	1.012	1.012	1.012	1.012	1.012	⋯	1.012	1.012	1.012	1.012	1.012	1.012	1.012	1.012	1.012	1.012
Średnia w przedziale?	1.000	1.000	1.000	1.000	0.000	1.000	1.000	1.000	1.000	1.000	⋯	0.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000

	Średnia	Wariancja	Błąd średnia	Błąd wariancja
1	-0.105199133	0.5884112	1.106686e-02	1.694053e-01
2	0.250060934	0.1896927	6.253047e-02	6.565979e-01
3	0.595881803	0.6100781	3.550751e-01	1.520391e-01
4	-0.096232084	1.1751398	9.260614e-03	3.067396e-02
5	0.396266972	0.3778503	1.570275e-01	3.870702e-01
6	-0.424030452	0.6783878	1.798018e-01	1.034344e-01
7	-0.004252365	1.1608685	1.808261e-05	2.587867e-02
8	0.282565668	0.8793765	7.984336e-02	1.455003e-02
9	-0.378640343	1.5679436	1.433685e-01	3.225599e-01
10	0.052165120	0.6737434	2.721200e-03	1.064434e-01
11	0.101890168	0.4754711	1.038161e-02	2.751306e-01
12	-0.363040437	0.5303894	1.317984e-01	2.205341e-01
13	-0.150267453	0.6692962	2.258031e-02	1.093650e-01
14	0.214841045	1.3219105	4.615667e-02	1.036264e-01
15	0.311780890	0.2372774	9.720732e-02	5.817458e-01
16	-0.134439182	0.7622911	1.807389e-02	5.650552e-02
17	0.149800720	0.9609834	2.244026e-02	1.522293e-03
18	0.014882055	1.1986649	2.214756e-04	3.946776e-02
19	-0.016942092	1.0079769	2.870345e-04	6.363105e-05
20	-0.215411230	0.7895146	4.640200e-02	4.430412e-02
21	-0.539098149	0.8249028	2.906268e-01	3.065903e-02
22	0.064059450	1.5312737	4.103613e-03	2.822517e-01
23	0.460399214	1.0276002	2.119674e-01	7.617726e-04
24	0.115059674	0.9849283	1.323873e-02	2.271551e-04
25	-0.143823363	1.1772822	2.068516e-02	3.142896e-02
26	-0.029564484	0.7913505	8.740587e-04	4.353462e-02
27	0.130028781	0.7892370	1.690748e-02	4.442106e-02
28	-0.166686356	0.8717749	2.778434e-02	1.644167e-02
29	0.027126511	0.9416862	7.358476e-04	3.400501e-03
30	0.027022880	0.8335232	7.302360e-04	2.771454e-02
⋮	⋮	⋮	⋮	⋮
970	0.03211694	0.9716784	0.0010314980	0.0008021158
971	0.03292668	0.9674732	0.0010841661	0.0010579896
972	0.03572490	0.9769727	0.0012762686	0.0005302555
973	0.03613837	0.9766527	0.0013059819	0.0005450975
974	0.03402961	0.9598450	0.0011580141	0.0016124243
975	0.03187565	0.9670637	0.0010160571	0.0010847966
976	0.04008258	0.9680027	0.0016066130	0.0010238281
977	0.02518906	0.9661430	0.0006344887	0.0011462944
978	0.03949027	0.9704743	0.0015594815	0.0008717696
979	0.03564046	0.9708388	0.0012702422	0.0008503775
980	0.03367096	0.9608224	0.0011337334	0.0015348840
981	0.03158738	0.9742587	0.0009977627	0.0006626136
982	0.02643060	0.9704784	0.0006985764	0.0008715270
983	0.03959623	0.9732300	0.0015678615	0.0007166302
984	0.03564972	0.9735951	0.0012709028	0.0006972178
985	0.02867841	0.9734603	0.0008224510	0.0007043581
986	0.02636932	0.9743049	0.0006953411	0.0006602402
987	0.02510986	0.9705435	0.0006305053	0.0008676864
988	0.03357224	0.9677243	0.0011270954	0.0010417207
989	0.03282567	0.9670233	0.0010775248	0.0010874652
990	0.03028284	0.9708861	0.0009170506	0.0008476170
991	0.03392811	0.9708488	0.0011511164	0.0008497922
992	0.03264881	0.9725880	0.0010659446	0.0007514167
993	0.03561391	0.9738534	0.0012683507	0.0006836450
994	0.02776738	0.9706865	0.0007710273	0.0008592812
995	0.03180005	0.9702645	0.0010112434	0.0008841987
996	0.03307225	0.9715561	0.0010937737	0.0008090541
997	0.03278912	0.9707677	0.0010751261	0.0008545301
998	0.03397741	0.9699010	0.0011544643	0.0009059518
999	0.03295969	0.9700047	0.0010863413	0.0008997158