Statystyka i Analiza danych¶

Laboratorium 9 - Korelacja i regresja (część 2)¶

Ćwiczenie 1: Regresja liniowa w R¶

Celem ćwiczenia jest zapoznanie się z funkcją lm() wykonującą regresję liniową w R.

Zacznijmy od wczytania poniższej funkcji generującej prostą ramkę danych:

generujDane <- function(n, a, b, sigma) {
  x <- runif(n)
  y <- a * x + b + sigma * rnorm(n)
  plot(y ~ x, t="p", xlab="X", ylab="Y", main="Regression Data")
  abline(b, a, lty="dashed")
  data.frame(X=x, Y=y)
}

Użyj powyższej funkcji aby wygenerować zbiór danych Regresja składający się z 50 obserwacji z prawdziwymi współczynnikami a=3, b=-2 i szumem sigma=1.

Regresja <- generujDane(50, 3, -2, 1)

Wyznacz współczynniki regresji liniowej, wyświetl zmienną model i porównaj współczynniki z prawdziwymi wartościami a, b.

model <- lm(Y ~ X, Regresja)
model

Call:
lm(formula = Y ~ X, data = Regresja)

Coefficients:
(Intercept)            X  
     -1.874        2.701

Przypisz współczynniki do zmiennej coeffs i wyznacz wektor $\hat{Y}$ (ozn. Yp) wartości zmiennej objaśnianej wyznaczone z modelu liniowego.

coeffs <- model$coefficients
Yp <- Regresja$X * coeffs[2] + coeffs[1]

Wyznacz i wyświetl podsumowanie modelu. Zinterpretuj wypisywane wartości

modelSummary = summary(model)
modelSummary

Call:
lm(formula = Y ~ X, data = Regresja)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.1547 -0.6561 -0.1227  0.6611  2.4383 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -1.8744     0.2829  -6.625 2.76e-08 ***
X             2.7010     0.5192   5.203 4.03e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.016 on 48 degrees of freedom
Multiple R-squared:  0.3606,	Adjusted R-squared:  0.3473 
F-statistic: 27.07 on 1 and 48 DF,  p-value: 4.03e-06

Do poszczególnych elementów podsumowania można uzyskać dostęp poprzez funkcje:

współczynniki modelu z błędami standardowymi, wartościami statystyki t i jej p-wartościami:

modelSummary$coefficients

Współczynnik determinacji $R^2$:

modelSummary$r.squared

Statystyka $F$:

F <- modelSummary$fstatistic
F

Sprawdź, czy model jest istotny statystycznie za pomocą statystyki F i porównaj z p-wartością zwracaną przez modelSummary:

1 - pf(F[1], F[2], F[3])

Wyznacz również SST, SSE i SSR:

yMean <- mean(Regresja$Y)
SST <- sum((Regresja$Y - yMean)^2)
SSR <- sum((Yp - yMean)^2)
SSE <- sum((Regresja$Y - Yp)^2)
SST - SSR - SSE

Na koniec możesz wyświetlić wykresy diagnostyczne:

plot(model)

Czyszczenie przestrzeni roboczej (usunięcie wszystkich zmiennych, funkcji, itp.)

rm(list = ls())

Ćwiczenie 2: Dane medyczne¶

Wysunięto hipotezę, że istnieje związek pomiędzy czasem działania pewnego leku u chorych na zaburzenia układu krążenia a aktywnością pewnego enzymu. Losowa próba dała następujące wyniki (patrz tabela). Dla zmiennych x i y należy:

wyliczyć współczynnik korelacji Pearsona
utworzyć wykres rozrzutu
obliczyć funkcję regresji i dodaj do wykresu linię trendu
Czy odrzucenie danych o pewnych obserwacjach mogłoby poprawić wyniki?
Czy jeszcze jakaś transformacja zbioru danych pozwoliłaby na dalsze polepszenie wyników ?

Zaczynamy od załadowania danych wykonując poniższy kod:

Dane <- read.csv(url("http://www.cs.put.poznan.pl/wkotlowski/siad/9-cw2.csv"), sep=";")

Dane te zawierają informację o płci, czasie działania leku (x) i aktywności enzymu (y). Wyświetl tabelę z danymi:

Dane

Wyznacz współczynnik korelacji Pearsona:

wspKor <- cor(Dane$x, Dane$y)
wspKor

Korzystajac z funkcji plot utwórz wykres rozrzutu dla tych danych. Opisz odpowiednio osie wykresu. Wyznacz funkcję regresji i dodaj ją do wykresu:

plot(Dane$y ~ Dane$x, main = "Dane medyczne", xlab = "x (aktywność enzymu)", ylab = "y (czas działania leku)")
model <- lm(y ~ x, Dane)
abline(model)

Sprawdź, czy wynik jest istotny na poziomie istotności alfa=0.05 za pomocą funkcji summary lub ręcznie wyznaczając p-wartość statystyki F:

model.summary = summary(model)
F <- model.summary$fstatistic
pValue <- 1 - pf(F[1], F[2], F[3])
model.summary
pValue

Call:
lm(formula = y ~ x, data = Dane)

Residuals:
     Min       1Q   Median       3Q      Max 
-24.4163  -1.2270   0.0402   5.0721  16.1317 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  38.5863     7.7131   5.003 6.83e-05 ***
x            -0.6550     0.4619  -1.418    0.172    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 10.48 on 20 degrees of freedom
Multiple R-squared:  0.09136,	Adjusted R-squared:  0.04592 
F-statistic: 2.011 on 1 and 20 DF,  p-value: 0.1716

Czy odrzucenie części danych mogłoby poprawić wyniki?

DaneK <- Dane[Dane$plec == "k",]
plot(DaneK$y ~ DaneK$x, main = "Dane medyczne (kobiety)", xlab = "x (aktywność enzymu)", ylab = "y (czas działania leku)")
model <- lm(y ~ x, DaneK)
abline(model)
summary(model)

Call:
lm(formula = y ~ x, data = DaneK)

Residuals:
    Min      1Q  Median      3Q     Max 
-24.868  -9.588   3.781  10.936  15.343 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  36.0944    17.4449   2.069   0.0654 .
x            -0.4447     1.3327  -0.334   0.7455  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 14.79 on 10 degrees of freedom
Multiple R-squared:  0.01101,	Adjusted R-squared:  -0.08789 
F-statistic: 0.1114 on 1 and 10 DF,  p-value: 0.7455

DaneM <- Dane[Dane$plec == "m",]
plot(DaneM$y ~ DaneM$x, main = "Dane medyczne (mezczyzni)", xlab = "x (aktywność enzymu)", ylab = "y (czas działania leku)")
model <- lm(y ~ x, DaneM)
abline(model)
summary(model)

Call:
lm(formula = y ~ x, data = DaneM)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.88466 -0.16592  0.06522  0.40484  0.61180 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 40.35580    1.10106   36.65 3.37e-10 ***
x           -0.75443    0.05452  -13.84 7.19e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.5617 on 8 degrees of freedom
Multiple R-squared:  0.9599,	Adjusted R-squared:  0.9549 
F-statistic: 191.5 on 1 and 8 DF,  p-value: 7.192e-07

Czyścimy przestrzeń roboczą:

rm(list = ls())

Ćwiczenie 3: Szacowanie czasu pracy programistów¶

Baza danych historycznych obejmuje oszacowane przez programistów czasy pracy oraz faktyczny rozmiar programu. Sprawdź, czy te dwie zmienne są zależne i przeprowadź analizę regresji. Powyższe zadanie ilustruje jeden z elementów metody PSP.

Wczytaj i wyświetl dane z pliku:

Programy <- read.csv(url("http://www.cs.put.poznan.pl/wkotlowski/siad/9-cw3.csv"), sep=";")
Programy

Teraz dołączymy Programy do ścieżki przeszukiwania nazw zmiennych. Dzięki temu możemy odwoływać się do zmiennych w Programy bez konieczności każdorazowego zaznaczania ramki danych

attach(Programy)

Np. wyznaczenie współczynnika korelacji Pearsona wygląda teraz tak:

wspKor <- cor(rozmiar, czas)
wspKor

Utwórz wykres rozrzutu (czas w funkcji rozmiaru), oblicz funkcję regresji i dodaj ją do wykresu:

plot(czas ~ rozmiar, main = "Programy", xlab = "rozmiar", ylab = "czas")
model <- lm(czas ~ rozmiar)
abline(model)

Sprawdź, czy wynik jest istotny na poziomie istotności alfa=0.05 za pomocą funkcji summary

model.summary = summary(model)
F <- model.summary$fstatistic
pValue <- 1 - pf(F[1], F[2], F[3])
pValue

Zinterpretuj współczynniki modelu

model

Call:
lm(formula = czas ~ rozmiar)

Coefficients:
(Intercept)      rozmiar  
    45.9358       0.5273

Odłącz ramkę danych od ścieżki i wyczyść przestrzeń roboczą:

detach(Programy)
rm(list = ls())

Ćwiczenie 4: Analiza regresji wielu zmiennych (wieloraka)¶

Zadanie demonstracyjne, które pokaże przykład analizy regresji wielu zmiennych i różnicę między testem t na istotoność zmiennych w modelu, a globalnym testem F.

Wczytaj dane z pliku 9-cw4.csv i wyświetl tabelę danych. Jest to zbiór danych ekonomicznych, gdzie Exports jest zmienną objaśnianą (Y), a pozostałe są zmiennymi objaśniającymi (X)

Ekonom <- read.csv(url("http://www.cs.put.poznan.pl/wkotlowski/siad/9-cw4.csv"), sep=";")
Ekonom

Utwórz model liniowy zmiennej Exports w funkcji pozostałych zmiennych:

model <- lm(Exports ~ ., Ekonom) # skrócony zapis dla lm(Exports ~ M1 + Lend + Price + Exchange, Ekonom)
model

Call:
lm(formula = Exports ~ ., data = Ekonom)

Coefficients:
(Intercept)           M1         Lend        Price     Exchange  
  -4.047103     0.368372     0.002669     0.036862     0.268003

Wyświetl podsumowanie modelu:

modelSummary <- summary(model)
modelSummary

Call:
lm(formula = Exports ~ ., data = Ekonom)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.92502 -0.12779 -0.03198  0.18502  0.91181 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -4.047103   2.329192  -1.738   0.0873 .  
M1           0.368372   0.062276   5.915 1.55e-07 ***
Lend         0.002669   0.047919   0.056   0.9558    
Price        0.036862   0.009324   3.954   0.0002 ***
Exchange     0.268003   0.928517   0.289   0.7738    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.3357 on 62 degrees of freedom
Multiple R-squared:  0.8251,	Adjusted R-squared:  0.8138 
F-statistic:  73.1 on 4 and 62 DF,  p-value: < 2.2e-16

O ile sam model jest istotny statystycznie na poziomie alfa=0.05 (p-wartość statystyki F < 2.2e-16), o tyle niektóre ze zmiennych nie są istotne statystycznie (p-wartość statystyki t < 0.05). Poniższa analiza może nam posłużyć do selekcji zmiennych istotnych statystycznie.

Odrzucamy więc zmienne nieistotne statystycznie i pozostawiamy tylko Exports, M1 i Price

Ekonom2 <- Ekonom[, c("Exports", "M1", "Price")]

Ponownie wykonujemy analizę regresji:

model <- lm(Exports ~ ., Ekonom2) 
model
summary(model)

Call:
lm(formula = Exports ~ ., data = Ekonom2)

Coefficients:
(Intercept)           M1        Price  
   -3.42296      0.36142      0.03703

Call:
lm(formula = Exports ~ ., data = Ekonom2)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.93106 -0.12490 -0.02465  0.18140  0.90508 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -3.422957   0.540853  -6.329 2.75e-08 ***
M1           0.361417   0.039246   9.209 2.45e-13 ***
Price        0.037033   0.004094   9.046 4.70e-13 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.3306 on 64 degrees of freedom
Multiple R-squared:  0.8248,	Adjusted R-squared:  0.8193 
F-statistic: 150.7 on 2 and 64 DF,  p-value: < 2.2e-16

	Estimate	Std. Error	t value	Pr(>\|t\|)
(Intercept)	-1.874362	0.2829083	-6.625335	2.762025e-08
X	2.700969	0.5191560	5.202616	4.029684e-06

plec	x	y
<fct>	<dbl>	<dbl>
k	15.6	44.5
k	10.6	44.0
k	16.9	25.8
k	15.0	39.3
k	6.7	21.8
k	12.0	37.3
k	16.0	43.5
k	13.0	21.3
k	9.7	32.8
k	7.8	43.0
k	15.0	7.1
k	14.0	5.0
m	21.7	23.1
m	14.5	29.6
m	17.3	27.1
m	22.4	23.6
m	20.9	25.2
m	20.3	24.2
m	24.7	22.2
m	15.3	28.8
m	18.6	26.9
m	23.6	22.5

rozmiar	czas
<int>	<int>
186	130
699	650
132	99
272	150
291	128
331	302
199	95
1890	945
788	368
1601	961

Exports	M1	Lend	Price	Exchange
<dbl>	<dbl>	<dbl>	<dbl>	<dbl>
2.6	5.1	7.8	114	2.2
2.6	4.9	8.0	116	2.2
2.7	5.1	8.1	117	2.2
3.0	5.1	8.1	122	2.2
2.9	5.1	8.1	124	2.2
3.1	5.2	8.1	128	2.2
3.2	5.1	8.3	132	2.1
3.7	5.2	8.8	133	2.2
3.6	5.3	8.9	133	2.2
3.4	5.4	9.1	134	2.2
3.7	5.7	9.2	135	2.2
3.6	5.7	9.5	136	2.2
4.1	5.9	10.3	140	2.2
3.5	5.8	10.6	147	2.2
4.2	5.7	11.3	150	2.2
4.3	5.8	12.1	151	2.2
4.2	6.0	12.0	151	2.2
4.1	6.0	11.4	151	2.1
4.6	6.0	11.1	153	2.1
4.4	6.0	11.0	154	2.1
4.5	6.1	11.3	154	2.1
4.6	6.0	12.6	154	2.1
4.6	6.1	13.6	155	2.1
4.2	6.7	13.6	155	2.1
5.5	6.2	14.3	156	2.1
3.7	6.3	14.3	156	2.1
4.9	7.0	13.7	159	2.1
5.2	7.0	12.7	161	2.1
4.9	6.6	12.6	161	2.2
4.6	6.4	13.4	161	2.1
⋮	⋮	⋮	⋮	⋮
4.8	7.1	10.1	154	2.1
5.4	7.0	10.0	154	2.1
5.0	7.5	10.2	154	2.1
5.2	7.4	11.0	153	2.0
4.7	7.4	11.0	152	2.1
5.1	7.3	10.7	152	2.2
4.9	7.6	10.2	152	2.2
4.9	7.8	10.0	151	2.2
5.3	7.8	9.8	152	2.2
4.8	8.2	9.3	152	2.2
4.9	8.2	9.3	152	2.2
5.1	8.3	9.5	152	2.1
4.3	8.3	9.2	150	2.1
4.9	8.0	9.1	147	2.1
5.3	8.2	9.0	147	2.1
4.8	8.2	9.0	146	2.1
5.3	8.0	8.9	145	2.1
5.0	8.1	9.0	145	2.1
5.1	8.1	9.0	146	2.1
4.8	8.1	9.0	147	2.1
4.8	8.1	8.9	147	2.1
5.2	8.6	8.9	147	2.1
4.9	8.8	9.0	146	2.1
5.5	8.4	9.1	147	2.1
4.3	8.2	9.0	146	2.1
5.2	8.3	9.2	146	2.1
4.7	8.3	9.6	146	2.1
5.4	8.4	10.0	146	2.1
5.2	8.3	10.0	147	2.1
5.6	8.2	10.1	146	2.2