## Statystyka i Analiza danych
# Laboratorium 10 - Korelacja i regresja (część 2)

### Ćwiczenie 1: Regresja liniowa w R

Celem ćwiczenia jest zapoznanie się z funkcją `lm()` wykonującą regresję liniową w R.

Zacznijmy od wczytania poniższej funkcji generującej prostą ramkę danych:

In [None]:
generujDane <- function(n, a, b, sigma) {
 x <- runif(n)
 y <- a * x + b + sigma * rnorm(n)
 plot(y ~ x, t="p", xlab="X", ylab="Y", main="Regression Data")
 abline(b, a, lty="dashed")
 data.frame(X=x, Y=y)
}

Użyj powyższej funkcji aby wygenerować zbiór danych `Regresja` składający się z 50 obserwacji z prawdziwymi współczynnikami *a=3*, *b=-2* i szumem *sigma=1*.

In [None]:
Regresja <- # -- wypełnij --

Wyznacz współczynniki regresji liniowej, wyświetl zmienną `model` i porównaj współczynniki z prawdziwymi wartościami *a*, *b*.

In [None]:
model <- lm(Y ~ X, Regresja)
model

Przypisz współczynniki do zmiennej `coeffs` i wyznacz wektor $\hat{Y}$ (ozn. `Yp`) wartości zmiennej objaśnianej wyznaczone z modelu liniowego.

In [None]:
coeffs <- model$coefficients

Yp <- # -- wypełnij --

Wyznacz i wyświetl podsumowanie modelu. Zinterpretuj wypisywane wartości

In [None]:
modelSummary <- summary(model)
modelSummary

Do poszczególnych elementów podsumowania można uzyskać dostęp poprzez funkcje:

- współczynniki modelu z błędami standardowymi, wartościami statystyki *t* i jej *p*-wartościami:

In [None]:
modelSummary$coefficients

- Współczynnik determinacji $R^2$:

In [None]:
modelSummary$r.squared

- Statystyka $F$:

In [None]:
F <- modelSummary$fstatistic
F

Sprawdź, czy model jest istotny statystycznie za pomocą statystyki *F* i porównaj z *p*-wartością zwracaną przez `modelSummary`:

In [None]:
1 - pf(F[1], F[2], F[3])

Wyznacz również SST, SSE i SSR:

In [None]:
yMean <- mean(Regresja$Y)
SST <- # -- wypełnij --
SSR <- # -- wypełnij --
SSE <- # -- wypełnij --
SST - SSR - SSE

Na koniec możesz wyświetlić wykresy diagnostyczne:

In [None]:
plot(model)

Czyszczenie przestrzeni roboczej (usunięcie wszystkich zmiennych, funkcji, itp.)

In [None]:
rm(list = ls())

### Ćwiczenie 2: Dane medyczne

Wysunięto hipotezę, że istnieje związek pomiędzy czasem działania pewnego leku u chorych na zaburzenia układu krążenia a aktywnością pewnego enzymu. Losowa próba dała następujące wyniki (patrz tabela). Dla zmiennych *x* i *y* należy:
 - wyliczyć współczynnik korelacji Pearsona
 - utworzyć wykres rozrzutu 
 - obliczyć funkcję regresji i dodaj do wykresu linię trendu
 - Czy odrzucenie danych o pewnych obserwacjach mogłoby poprawić wyniki?
 - Czy jeszcze jakaś transformacja zbioru danych pozwoliłaby na dalsze polepszenie wyników ?

Zaczynamy od załadowania danych wykonując poniższy kod:

In [None]:
Dane <- read.csv(url("http://www.cs.put.poznan.pl/swilk/siad/10-cw2.csv"), sep=";")

Dane te zawierają informację o płci, czasie działania leku (`x`) i aktywności enzymu (`y`). Wyświetl tabelę z danymi:

In [None]:
Dane

Wyznacz współczynnik korelacji Pearsona:

In [None]:
wspKor <- # -- wypełnij --
wspKor

Korzystajac z funkcji `plot` utwórz wykres rozrzutu dla tych danych. Opisz odpowiednio osie wykresu. Wyznacz funkcję regresji i dodaj ją do wykresu:

In [None]:
plot( # -- wypełnij --
model <- # -- wypełnij --
abline(model)

Sprawdź, czy wynik jest istotny na poziomie istotności *alfa=0.05* za pomocą funkcji `summary` lub ręcznie wyznaczając *p*-wartość statystyki *F*:

Czy odrzucenie części danych mogłoby poprawić wyniki?

In [None]:
DaneK <- Dane[Dane$plec == "k",]

# -- wykonaj analizę regresji dla tego zbioru danych

In [None]:
DaneM <- Dane[Dane$plec == "m",]

# -- wykonaj analizę regresji dla tego zbioru danych

Czyścimy przestrzeń roboczą:

In [None]:
rm(list = ls())

### Ćwiczenie 3: Szacowanie czasu pracy programistów

Baza danych historycznych obejmuje oszacowane przez programistów czasy pracy oraz faktyczny rozmiar programu. Sprawdź, czy te dwie zmienne są zależne i przeprowadź analizę regresji. Powyższe zadanie ilustruje jeden z elementów metody PSP.

Wczytaj i wyświetl dane z pliku:
 

In [None]:
Programy <- read.csv(url("http://www.cs.put.poznan.pl/swilk/siad/10-cw3.csv"), sep=";")
Programy

Teraz dołączymy `Programy` do ścieżki przeszukiwania nazw zmiennych. Dzięki temu możemy odwoływać się do zmiennych w `Programy` bez konieczności każdorazowego zaznaczania ramki danych

In [None]:
attach(Programy)

Np. wyznaczenie współczynnika korelacji Pearsona wygląda teraz tak:

In [None]:
wspKor <- cor(rozmiar, czas)

Utwórz wykres rozrzutu (czas w funkcji rozmiaru), oblicz funkcję regresji i dodaj ją do wykresu:

Sprawdź, czy wynik jest istotny na poziomie istotności *alfa=0.05* za pomocą funkcji `summary`

Zinterpretuj współczynniki modelu

In [None]:
model

Odłącz ramkę danych od ścieżki i wyczyść przestrzeń roboczą:

In [None]:
detach(Programy)
rm(list = ls())

### Ćwiczenie 4: Analiza regresji wielu zmiennych (wieloraka)

Zadanie demonstracyjne, które pokaże przykład analizy regresji wielu zmiennych i różnicę między testem *t* na istotoność zmiennych w modelu, a globalnym testem *F*.

Wczytaj dane z pliku 10-cw4.csv i wyświetl tabelę danych. Jest to zbiór danych ekonomicznych, gdzie `Exports` jest zmienną objaśnianą (*Y*), a pozostałe są zmiennymi objaśniającymi (*X*)

In [None]:
Ekonom <- read.csv(url("http://www.cs.put.poznan.pl/swilk/siad/10-cw4.csv"), sep=";")
Ekonom

Utwórz model liniowy zmiennej `Exports` w funkcji pozostałych zmiennych:

In [None]:
model <- lm(Exports ~ ., Ekonom) # skrócony zapis dla lm(Exports ~ M1 + Lend + Price + Exchange, Ekonom)
model

Wyświetl podsumowanie modelu:

O ile sam model jest istotny statystycznie na poziomie *alfa=0.05* (*p*-wartość statystyki *F < 2.2e-16*), o tyle niektóre ze zmiennych nie są istotne statystycznie (*p*-wartość statystyki *t < 0.05*). Poniższa analiza może nam posłużyć do selekcji zmiennych istotnych statystycznie.

Odrzucamy więc zmienne nieistotne statystycznie i pozostawiamy tylko `Exports`, `M1` i `Price`

Ponownie wykonujemy analizę regresji: