Statystyka i Analiza Danych (2019/2020)

Prowadzący Wojciech Kotłowski (wkotlowski@ No spam, please cs.put. No really, no spam poznan.pl)
Instytut Informatyki PP, pokój nr 2 (CW), domofon 2936, tel. (61)665-2936
Konsultacje piątek, 15:10-16:50
Grupy wtorek 16:50, 16:50 (lab. 45)

Formularz

Proszę o wypełnienie formularza rejestracyjnego

Oceny

Wyniki końcowe z laboratoriów. Przyjęte progi procentowe: 45%-55%: 3.0, 56%-66%: 3.5, 67%-77%: 4, 78%-88%: 4.5, 89%-100%: 5.0. Proszę o informacje (mailowo) w przypadku, jeśli coś się nie zgadza.

Materiały do zajęć

Wszystkie oficjalne materiały znajdują się w repozytorium WebDAV przedmiotu
Zadania są albo w postaci plików Excela (nieliczne), albo w postaci notebooków Jupytera do wypełnienia w języku R (ogromna większość). Aby uruchomić notebooki na komputerze domowym, należy mieć zainstalowanego Pythona i język R. Do tego należy również zainstalować Jupytera (tutaj znajdziesz opis instalacji) i jądra języka R do Jupytera (tutaj znajdziesz opis instalacji).

W ramach zajęć studenci zostaną dostaną zadanie ukończenia kursu z R na platformie DataCamp (darmowy kurs Introduction to R).

Poniżej dodatkowe materiały do zajęć laboratoryjnych:

Zadanie domowe

Celem zadania jest przeprowadzenie prostej analizy danych za pomocą histogramu(ów), oraz weryfikacje hipotezy statystycznej za pomocą testu. Studenci sami wybierają sobie zbiór danych (i cechę do zbadania w jego obrębie) i sami stawiają hipotezę badawczą. Przykładowe zbiory danych:

Można również wybrać dane z innego źródła, lub wręcz wygenerować samodzielnie (np. wykonując odpowiedni eksperyment obliczeniowy). W ramach zadania należy:
  1. Bardzo krótko opisać zbiór danych i wybraną do analizy cechę.
  2. Wykonać podstawową analizę eksploracyjną, tzn. przygotować szereg rozdzielczy i histogram na badanej cesze (uwaga na dobór liczby przedziałów/klas) i wyznaczyć wartości podstawowych statystyk opisowych (z uzasadnieniem wyboru statystyk i komentarzem do wyników).
  3. Postawić co najmniej jedną hipotezę dotyczącą badanej cechy (cech) i przetestować ją. W przypadku, gdy zbiór danych dotyczy całej populacji (np. dane z GUS), do testów należy wybrać losową próbkę (np. funkcja sample w R) oraz skomentować, czy popełniono błąd I lub II rodzaju.
  4. Zamiast punktu 3 można przeprowadzić analizę regresji liniowej, tzn. wyznaczyć zależność liniową między cechą objaśnianą Y a inną cechą (lub cechami) objaśniającą X. Zinterpretować wyniki. Należy również przeprowadzić test istotności modelu liniowego (test F)
Uwaga: należy wykonać punkt 3 lub 4, nie trzeba wykonać obu!
Uwaga: należy zastanowić się, co jest populacją, a co jest próbą losową z populacji!

Zadanie można wykonać używając języka R lub arkusza kalkulacyjnego. Wyniki należy przedstawić jako krótkie sprawozdanie, do wyboru w formacie PDF lub w postaci notebooka R (jeśli użyto arkusza kalkulacyjnego do obliczeń, należy również załączyć arkusz lub umieścić obliczenia w PDFie). Obserwacje i komentarze mogą być w formie punktowej, od myślników (nie musi być to proza). Termin nadsyłania sprawozdań to 31 maja. Proszę wysłać sprawozdanie mailem o tytule '[SiAD] zadanie domowe'.

Organizacja zajęć i zasady zaliczenia