Dydaktyka

Statystyka i analiza danych

DataCamp

Podziękowania dla DataCamp za darmowe udostępnienie poziomu Premium dla naszej grupy. Daje on pełen dostęp do wszystkich (100+) kursów udostępnionych w ramach platformy i dotyczących zaawansowanej analizy i przetwarzania danych za pomocą systemu R, Python-a oraz SQL-a. Dostęp będzie otwarty przez najbliższe 6 miesięcy (koniec sierpnia 2021) i gorąco zachęcam do zapoznania się z innymi kursami.

Zadanie domowe

Zadanie domowe poświęcone jest testowaniu hipotez (dotyczących parametrów rozkładu, jak i istotności modelu regresji) i obejmuje następujące elementy:

  1. wybór zbioru danych do analizy -- można skorzystać z jednego z podanych poniżej źródeł danych, z innych źródeł (Google na pewno chętnie coś podpowie), albo też wygenerować dane samodzielnie (np. wykonując odpowiedni eksperyment obliczeniowy, można też wykorzystać wyniki eksperymentów wykonanych na innych zajęciach)
  2. wykonanie podstawowej analizy eksploracyjnej, tzn. przygotowanie szeregu rozdzielczego i histogramu (proszę zwrócić uwagę na sensowny dobór liczby przedziałów klasowych, zgodnie ze wskazówkami z wykładu) i wyznaczenie wartości podstawowych statystyk opisowych -- tutaj należy krótko uzasadnić wybór statystyk (np. odpowiednich dla skal pomiarowych, na których wyrażono dane) oraz skomentować uzyskany wynik,
  3. jeśli problem na to pozwala, budowę modelu regresji uwzględniającego więcej niż jedną zmienną niezależną (to pozwoli na przeprowadzenie bardziej złożonego procesu weryfikacji hipotez połączonego z selekcją zmiennych),
  4. postawienie co najmniej jednej hipotezy dotyczącej danych albo modelu regresji i przetestowanie jej. W przypadku, gdy zbiór danych dotyczy całej populacji (np. dane z GUS), do testów należy wybrać podzbiór danych oraz skomentować, czy popełniono błąd I lub II rodzaju.

Zadanie domowe można wykonać korzystając z R-a lub arkusza kalkulacyjnego, natomiast sprawozdanie powinno mieć formę tradycyjnego dokumentu (w formacie PDF) lub notebooka R (prefereowane). Powinno ono zawierać następujące elementy:

  1. imię nazwisko, numer indeksu,
  2. opis zbioru danych -- skąd pochodzi, czego dotyczy, czy są to dane obserwacyjne, czy też eksperymentalne,
  3. wynik analizy eksploracyjnej -- wykresy i wartości statystyk opisowych wraz z krótkimi komentarzami,
  4. uzyskany model regresji -- jeśli został skonstruowany,
  5. wynik testowania hipotez -- sformułowanie hipotezy, wybór testu i weryfikacja jego wymagań, opis i wynik procesu wnioskowania,
  6. ewentualne komentarze i spostrzeżenia dotyczące danych i wyników analizy.

Obserwacje i komentarze mogą być w formie punktowej (nie musi być to proza). Termin nadsyłania sprawozdań to niedziela, 6 czerwca (spóźnienie będzie wiązało się z obniżeniem oceny -- 10% za każdy dzień). Aby uniknąć wielokrotnej analizy tych samych zbiorów danych, po dokonaniu wyboru proszę "ogłosić" wybrany zbiór danych na Slacku w kanale #dane. Wcześniej proszę oczywiście upewnić się, że dany zbiór jest dostępny.

Laboratoria

Zajęcia 12. Testy nieparametryczne

Dodatkowe materiały

Zajęcia 11. Testy Chi2

Dodatkowe materiały

Zajęcia 10. Korelacja i regresja (część 2)

Dodatkowe materiały

Zajęcia 9. Korelacja i regresja (część 1)

Dodatkowe materiały

Zajęcia 8. Testy Z i t - dwie populacje

Dodatkowe materiały

Zajęcia 7. Testy Z i t - jedna populacja

Dodatkowe materiały

Zajęcia 6. Testy - frakcja

Dodatkowe materiały

Zajęcia 5. Estymatory punktowe i przedziałowe

Dodatkowe materiały

Zajęcia 4. Rozkłady prawdopodobieństwa

Dodatkowe materiały

Zajęcia 3. Statystyka opisowa

Dodatkowe materiały

Zajęcia 2. Wprowadzenie do R

Zadania:

Inne:

Zajęcia 1. Grupowanie i histogramy

Zadania:

Inne:

Organizacja i plan zajęć

Organizacja

  • Zajęcia mają charakter ćwiczeniowy - obecność na nich jest obowiązkowa (dwie nieobecności nieusprawiedliwione bez konsekwencji, możliwość odrabiania zajęć u innych prowadzących - z uwagi na możliwe przesunięcia między grupami proszę się upewniać, że odrabiane są właściwe zajęcia).
  • Na zajęciach będziemy korzystali systemu R oraz okazjonalnie z arkuszy kalkulacyjnych (LibreOffice).
  • Na większości zajęć (od trzecich) będą wyjściówki (proste zadanie lub pytanie teoretyczne - 5-7 minut liczenia/pisania) z materiału przerobionego na poprzedzających zajęciach. Wyjściówki będą realizowane z wykorzystaniem platformy eKursy.
  • Wyjściówki będą oceniane procentowo, ocen nie będzie można poprawiać, poza tym nieobecność nieusprawiedliwiona będzie wiązała się z oceną 0%.
  • Poza wejściówkami będą dwa do wykonania dwa tutoriale z systemu R (przygotowane w DataCamp-ie). Na wykonanie każdego z nich będzie tydzień.
  • Na koniec semestru zostanie wyznaczona ocena średnia z wejściówek i tutoriali - z obliczeń zostaną wyłączone dwie najgorsze oceny oraz ewentualne zera związane z nieobecnościami usprawiedliwionymi.
  • Na zajęciach będzie też jedno zadanie domowe - z testowania hipotez i/lib z korelacji i regresji. Na wykonanie go będą dwa tygodnie (potem 5% kary za każdy dzień opóźnienia). Zadania będą mogły być realizowane tradycyjny (arkusz kalkulacyjny + raport) lub w formie notatnikaa Jupyter-a.
  • Ostateczna ocena będzie sumą ważoną z następującymi wagami:
    • 0.40 - średnia ocena z wyjściówek i tutoriali,
    • 0.15 - ocena z zadania domowego,
    • 0.45 - średnia ocena z testów na wykładzie.
  • Zaliczenie wykładu nie będzie konieczne do zaliczenia laboratorium.
  • Prezentacja organizacyjna

Plan

Poniżej zakładany plan zajęć. Ostatnie zajęcia są rezerwą na nieprzewidziane opóźnienia, dodatkowe tematy albo przypomnienie i konsultacje przed testem na wykładzie.

DataTematUwagi
1.03organizacyjne + grupowanie i histogramyT1
8.03wprowadzenie do systemu RT2
15.02miary statystyki opisowej 
22.03rozkłady prawdopodobieństwaW
29.03estymacja punktowa i przedziałowaW
5.03Wielkanoc 
12.04testy frakcji (rozkład dwumianowy)W
19.04testy parametryzne (t i z)W
26.04testy dla dwóch próbW
3.05Majówka 
10.05korelacja i regresjaW
17.05korelacja i regresja - testy parametrów modeluW, ZD
24.05testy chi2W
31.05testy nieparametryczneW
7.06rezerwaW
14.06rezerwa 

T1, T2 - tutoriale z R, W - wyjściówki z przerobionego materiału, ZD - zadanie domowe