Statystyka i analiza danych
DataCamp
Podziękowania dla DataCamp za darmowe udostępnienie poziomu Premium dla naszej grupy. Daje on pełen dostęp do wszystkich (100+) kursów udostępnionych w ramach platformy i dotyczących zaawansowanej analizy i przetwarzania danych za pomocą systemu R, Python-a oraz SQL-a. Dostęp będzie otwarty przez najbliższe 6 miesięcy (koniec sierpnia 2021) i gorąco zachęcam do zapoznania się z innymi kursami.

Zadanie domowe
Zadanie domowe poświęcone jest testowaniu hipotez (dotyczących parametrów rozkładu, jak i istotności modelu regresji) i obejmuje następujące elementy:
- wybór zbioru danych do analizy -- można skorzystać z jednego z podanych poniżej źródeł danych, z innych źródeł (Google na pewno chętnie coś podpowie), albo też wygenerować dane samodzielnie (np. wykonując odpowiedni eksperyment obliczeniowy, można też wykorzystać wyniki eksperymentów wykonanych na innych zajęciach)
- wykonanie podstawowej analizy eksploracyjnej, tzn. przygotowanie szeregu rozdzielczego i histogramu (proszę zwrócić uwagę na sensowny dobór liczby przedziałów klasowych, zgodnie ze wskazówkami z wykładu) i wyznaczenie wartości podstawowych statystyk opisowych -- tutaj należy krótko uzasadnić wybór statystyk (np. odpowiednich dla skal pomiarowych, na których wyrażono dane) oraz skomentować uzyskany wynik,
- jeśli problem na to pozwala, budowę modelu regresji uwzględniającego więcej niż jedną zmienną niezależną (to pozwoli na przeprowadzenie bardziej złożonego procesu weryfikacji hipotez połączonego z selekcją zmiennych),
- postawienie co najmniej jednej hipotezy dotyczącej danych albo modelu regresji i przetestowanie jej. W przypadku, gdy zbiór danych dotyczy całej populacji (np. dane z GUS), do testów należy wybrać podzbiór danych oraz skomentować, czy popełniono błąd I lub II rodzaju.
Zadanie domowe można wykonać korzystając z R-a lub arkusza kalkulacyjnego, natomiast sprawozdanie powinno mieć formę tradycyjnego dokumentu (w formacie PDF) lub notebooka R (prefereowane). Powinno ono zawierać następujące elementy:
- imię nazwisko, numer indeksu,
- opis zbioru danych -- skąd pochodzi, czego dotyczy, czy są to dane obserwacyjne, czy też eksperymentalne,
- wynik analizy eksploracyjnej -- wykresy i wartości statystyk opisowych wraz z krótkimi komentarzami,
- uzyskany model regresji -- jeśli został skonstruowany,
- wynik testowania hipotez -- sformułowanie hipotezy, wybór testu i weryfikacja jego wymagań, opis i wynik procesu wnioskowania,
- ewentualne komentarze i spostrzeżenia dotyczące danych i wyników analizy.
Obserwacje i komentarze mogą być w formie punktowej (nie musi być to proza). Termin nadsyłania sprawozdań to niedziela, 6 czerwca (spóźnienie będzie wiązało się z obniżeniem oceny -- 10% za każdy dzień). Aby uniknąć wielokrotnej analizy tych samych zbiorów danych, po dokonaniu wyboru proszę "ogłosić" wybrany zbiór danych na Slacku w kanale #dane. Wcześniej proszę oczywiście upewnić się, że dany zbiór jest dostępny.
Laboratoria
Zajęcia 12. Testy nieparametryczne
Dodatkowe materiały
Zajęcia 11. Testy Chi2
Dodatkowe materiały
Zajęcia 10. Korelacja i regresja (część 2)
Dodatkowe materiały
- Prezentacja (pdf)
- Skorygowany współczynnik R2 (adjusted R2)
- Opis wykresów diagnostycznych dla modeli regresji
Zajęcia 9. Korelacja i regresja (część 1)
Dodatkowe materiały
Zajęcia 8. Testy Z i t - dwie populacje
Dodatkowe materiały
Zajęcia 7. Testy Z i t - jedna populacja
- Ćwiczenie 2 (xls)
- Ćwiczenie 3 (xls)
- Ćwiczenie 4 (xls)
- Uzupełnienie do ćwiczenia 4 (Jupyter)
- Ćwiczenie 5 (xls)
- Ćwiczenie 6 (xls)
Dodatkowe materiały
- Prezentacja (pdf)
- Funkcje do rysowania wykresów(Jupyter)
- Demonstracja rozkładu t-Studenta
- Dodatkowe materiały do zajęć (M. Lango)
Zajęcia 6. Testy - frakcja
Dodatkowe materiały
Zajęcia 5. Estymatory punktowe i przedziałowe
Dodatkowe materiały
Zajęcia 4. Rozkłady prawdopodobieństwa
Dodatkowe materiały
Zajęcia 3. Statystyka opisowa
Dodatkowe materiały
- Prezentacja
- Wzory na skośność i kurtozę
- Dodatkowe materiały na temat skośności (pdf)
- I jeszcze ciekawy wpis na blogu o kurtozie
- Dodatkowe materiały do zajęć (M. Lango)
Zajęcia 2. Wprowadzenie do R
Zadania:
Inne:
- Ściąga (cheat sheet) z R
- Książka R Programming for Data Science
- Książka Exploratory Data Analysis with R
Zajęcia 1. Grupowanie i histogramy
Zadania:
Inne:
- Prezentacja
- Instalacja Jupyter Notebook oraz wtyczki do R
- Instalacja w środowisku Anaconda
- Dodatkowe materiały do zajęć (M. Lango)
Organizacja i plan zajęć
Organizacja
- Zajęcia mają charakter ćwiczeniowy - obecność na nich jest obowiązkowa (dwie nieobecności nieusprawiedliwione bez konsekwencji, możliwość odrabiania zajęć u innych prowadzących - z uwagi na możliwe przesunięcia między grupami proszę się upewniać, że odrabiane są właściwe zajęcia).
- Na zajęciach będziemy korzystali systemu R oraz okazjonalnie z arkuszy kalkulacyjnych (LibreOffice).
- Na większości zajęć (od trzecich) będą wyjściówki (proste zadanie lub pytanie teoretyczne - 5-7 minut liczenia/pisania) z materiału przerobionego na poprzedzających zajęciach. Wyjściówki będą realizowane z wykorzystaniem platformy eKursy.
- Wyjściówki będą oceniane procentowo, ocen nie będzie można poprawiać, poza tym nieobecność nieusprawiedliwiona będzie wiązała się z oceną 0%.
- Poza wejściówkami będą dwa do wykonania dwa tutoriale z systemu R (przygotowane w DataCamp-ie). Na wykonanie każdego z nich będzie tydzień.
- Na koniec semestru zostanie wyznaczona ocena średnia z wejściówek i tutoriali - z obliczeń zostaną wyłączone dwie najgorsze oceny oraz ewentualne zera związane z nieobecnościami usprawiedliwionymi.
- Na zajęciach będzie też jedno zadanie domowe - z testowania hipotez i/lib z korelacji i regresji. Na wykonanie go będą dwa tygodnie (potem 5% kary za każdy dzień opóźnienia). Zadania będą mogły być realizowane tradycyjny (arkusz kalkulacyjny + raport) lub w formie notatnikaa Jupyter-a.
- Ostateczna ocena będzie sumą ważoną z następującymi wagami:
- 0.40 - średnia ocena z wyjściówek i tutoriali,
- 0.15 - ocena z zadania domowego,
- 0.45 - średnia ocena z testów na wykładzie.
- Zaliczenie wykładu nie będzie konieczne do zaliczenia laboratorium.
- Prezentacja organizacyjna
Plan
Poniżej zakładany plan zajęć. Ostatnie zajęcia są rezerwą na nieprzewidziane opóźnienia, dodatkowe tematy albo przypomnienie i konsultacje przed testem na wykładzie.
Data | Temat | Uwagi |
---|---|---|
1.03 | organizacyjne + grupowanie i histogramy | T1 |
8.03 | wprowadzenie do systemu R | T2 |
15.02 | miary statystyki opisowej | |
22.03 | rozkłady prawdopodobieństwa | W |
29.03 | estymacja punktowa i przedziałowa | W |
5.03 | Wielkanoc | |
12.04 | testy frakcji (rozkład dwumianowy) | W |
19.04 | testy parametryzne (t i z) | W |
26.04 | testy dla dwóch prób | W |
3.05 | Majówka | |
10.05 | korelacja i regresja | W |
17.05 | korelacja i regresja - testy parametrów modelu | W, ZD |
24.05 | testy chi2 | W |
31.05 | testy nieparametryczne | W |
7.06 | rezerwa | W |
14.06 | rezerwa |
T1, T2 - tutoriale z R, W - wyjściówki z przerobionego materiału, ZD - zadanie domowe