Statystyka i Analiza Danych (2019/2020)

Prowadzący	Wojciech Kotłowski (wkotlowski@ No spam, please cs.put. No really, no spam poznan.pl)
	Instytut Informatyki PP, pokój nr 2 (CW), domofon 2936, tel. (61)665-2936
Konsultacje	piątek, 15:10-16:50
Grupy	wtorek 16:50, 16:50 (lab. 45)

Formularz

Proszę o wypełnienie formularza rejestracyjnego

Oceny

Wyniki końcowe z laboratoriów. Przyjęte progi procentowe: 45%-55%: 3.0, 56%-66%: 3.5, 67%-77%: 4, 78%-88%: 4.5, 89%-100%: 5.0. Proszę o informacje (mailowo) w przypadku, jeśli coś się nie zgadza.

Materiały do zajęć

Wszystkie oficjalne materiały znajdują się w repozytorium WebDAV przedmiotu
Zadania są albo w postaci plików Excela (nieliczne), albo w postaci notebooków Jupytera do wypełnienia w języku R (ogromna większość). Aby uruchomić notebooki na komputerze domowym, należy mieć zainstalowanego Pythona i język R. Do tego należy również zainstalować Jupytera (tutaj znajdziesz opis instalacji) i jądra języka R do Jupytera (tutaj znajdziesz opis instalacji).

W ramach zajęć studenci zostaną dostaną zadanie ukończenia kursu z R na platformie DataCamp (darmowy kurs Introduction to R).

Poniżej dodatkowe materiały do zajęć laboratoryjnych:

17.03: statystki opisowe
24.03: rozkłady prawdopodobieństwa
31.03: estymatory
07.04: wstęp do testów statystycznych
21.04: testy Z i T
18.04: testy dwóch zbiorowości
05.05: korelacja i regresja
12.05: analiza regresji
19.05: test chi-kwadrat
26.05: metody nieparametryczne

Zadanie domowe

Celem zadania jest przeprowadzenie prostej analizy danych za pomocą histogramu(ów), oraz weryfikacje hipotezy statystycznej za pomocą testu. Studenci sami wybierają sobie zbiór danych (i cechę do zbadania w jego obrębie) i sami stawiają hipotezę badawczą. Przykładowe zbiory danych:

UCI repository (część zbiorów z tego repozytorium jest wbudowanych w R)
Kaggle data sets
openintro.org (sekcja Data and Analysis)
Główny Urząd Statystyczny
FiveThirtyEight

Można również wybrać dane z innego źródła, lub wręcz wygenerować samodzielnie (np. wykonując odpowiedni eksperyment obliczeniowy). W ramach zadania należy:

Bardzo krótko opisać zbiór danych i wybraną do analizy cechę.
Wykonać podstawową analizę eksploracyjną, tzn. przygotować szereg rozdzielczy i histogram na badanej cesze (uwaga na dobór liczby przedziałów/klas) i wyznaczyć wartości podstawowych statystyk opisowych (z uzasadnieniem wyboru statystyk i komentarzem do wyników).
Postawić co najmniej jedną hipotezę dotyczącą badanej cechy (cech) i przetestować ją. W przypadku, gdy zbiór danych dotyczy całej populacji (np. dane z GUS), do testów należy wybrać losową próbkę (np. funkcja sample w R) oraz skomentować, czy popełniono błąd I lub II rodzaju.
Zamiast punktu 3 można przeprowadzić analizę regresji liniowej, tzn. wyznaczyć zależność liniową między cechą objaśnianą Y a inną cechą (lub cechami) objaśniającą X. Zinterpretować wyniki. Należy również przeprowadzić test istotności modelu liniowego (test F)

Uwaga: należy wykonać punkt 3 lub 4, nie trzeba wykonać obu!
Uwaga: należy zastanowić się, co jest populacją, a co jest próbą losową z populacji!

Zadanie można wykonać używając języka R lub arkusza kalkulacyjnego. Wyniki należy przedstawić jako krótkie sprawozdanie, do wyboru w formacie PDF lub w postaci notebooka R (jeśli użyto arkusza kalkulacyjnego do obliczeń, należy również załączyć arkusz lub umieścić obliczenia w PDFie). Obserwacje i komentarze mogą być w formie punktowej, od myślników (nie musi być to proza). Termin nadsyłania sprawozdań to 31 maja. Proszę wysłać sprawozdanie mailem o tytule '[SiAD] zadanie domowe'.

Organizacja zajęć i zasady zaliczenia

Obecność na zajęciach obowiązkowa (możliwość opuszczenia do dwóch zajęć bez usprawiedliwienia).
Na ocenę z zajęć składają się: dwa testy zaliczeniowe, wejściówki i tutoriale oraz zadania domowe w proporcjach:

Dwa testy zaliczeniowe (łącznie) 45%

Wejściówki i tutoriale 40%

Zadanie domowe 15%
Planowane są 2 tutoriale i 10 wejściówek. Tutoriale będą dotyczyły języka R i zostaną zadane do rozwiązania w domu z tygodniowym czasem wykonania. Wejściówki (ok. 5-7 min, jedno lub dwa krótkie pytania, odpowiedź na kartce) będą się odbywały na początku większości zajęć i będą dotyczyły materiału z poprzednich zajęć. Wejściówek nie można poprawiać, a nieusprawiedliwiona nieobecność na zajęciach oznacza 0 punktów z wejściówki. Uwaga: przy liczeniu łącznej oceny z wejściówek i tutoriali zostaną wyłączone dwie najgorsze oceny oraz ewentualne zera związane z nieobecnościami usprawiedliwionymi.
Nie jest konieczne zaliczenie żadnej z części z osobna, liczy się tylko łączna ocena z testów, wejściówek i zadań domowych.

Dwa testy zaliczeniowe (łącznie)	45%
Wejściówki i tutoriale	40%
Zadanie domowe	15%