Statystyka i Analiza Danych (2019/2020)
Prowadzący |
Wojciech Kotłowski (wkotlowski@ No spam, please cs.put. No really, no spam poznan.pl) |
|
Instytut Informatyki PP, pokój nr 2 (CW), domofon 2936, tel. (61)665-2936 |
Konsultacje |
piątek, 15:10-16:50 |
Grupy |
wtorek 16:50, 16:50 (lab. 45) |
Formularz
Proszę o wypełnienie
formularza rejestracyjnego
Oceny
Wyniki końcowe z laboratoriów. Przyjęte progi procentowe: 45%-55%: 3.0, 56%-66%: 3.5, 67%-77%: 4, 78%-88%: 4.5, 89%-100%: 5.0. Proszę o informacje (mailowo) w przypadku, jeśli coś się nie zgadza.
Materiały do zajęć
Wszystkie oficjalne materiały znajdują się w repozytorium WebDAV przedmiotu
Zadania są albo w postaci plików Excela (nieliczne), albo w postaci notebooków Jupytera do wypełnienia w języku R (ogromna większość). Aby uruchomić notebooki na komputerze domowym, należy mieć zainstalowanego Pythona i
język R. Do tego należy również zainstalować Jupytera (tutaj znajdziesz opis instalacji) i jądra języka R do Jupytera
(tutaj znajdziesz opis instalacji).
W ramach zajęć studenci zostaną dostaną zadanie ukończenia kursu z R na platformie DataCamp (darmowy kurs Introduction to R).
Poniżej dodatkowe materiały do zajęć laboratoryjnych:
Zadanie domowe
Celem zadania jest przeprowadzenie prostej analizy danych za pomocą histogramu(ów),
oraz weryfikacje hipotezy statystycznej za pomocą testu.
Studenci sami wybierają sobie zbiór danych (i cechę do zbadania w jego obrębie) i sami stawiają hipotezę badawczą.
Przykładowe zbiory danych:
Można również wybrać dane z innego źródła, lub wręcz wygenerować samodzielnie (np. wykonując odpowiedni eksperyment obliczeniowy).
W ramach zadania należy:
- Bardzo krótko opisać zbiór danych i wybraną do analizy cechę.
- Wykonać podstawową analizę eksploracyjną, tzn. przygotować szereg rozdzielczy i histogram na badanej cesze (uwaga na dobór liczby przedziałów/klas) i wyznaczyć wartości podstawowych statystyk opisowych (z uzasadnieniem wyboru statystyk i komentarzem do wyników).
- Postawić co najmniej jedną hipotezę dotyczącą badanej cechy (cech) i przetestować ją. W przypadku, gdy zbiór danych dotyczy całej populacji (np. dane z GUS), do testów należy wybrać losową próbkę (np. funkcja sample w R) oraz skomentować, czy popełniono błąd I lub II rodzaju.
- Zamiast punktu 3 można przeprowadzić analizę regresji liniowej, tzn. wyznaczyć zależność liniową między cechą objaśnianą Y a inną cechą (lub cechami) objaśniającą X.
Zinterpretować wyniki. Należy również przeprowadzić test istotności modelu liniowego (test F)
Uwaga: należy wykonać punkt 3 lub 4, nie trzeba wykonać obu!
Uwaga: należy zastanowić się, co jest populacją, a co jest próbą losową z populacji!
Zadanie można wykonać używając języka R lub arkusza kalkulacyjnego. Wyniki należy przedstawić jako krótkie sprawozdanie, do wyboru w formacie PDF lub w postaci notebooka R (jeśli
użyto arkusza kalkulacyjnego do obliczeń, należy również załączyć arkusz lub umieścić obliczenia w PDFie). Obserwacje i komentarze mogą być w formie punktowej, od myślników (nie musi być to proza). Termin nadsyłania sprawozdań to 31 maja. Proszę wysłać sprawozdanie mailem o tytule '[SiAD] zadanie domowe'.
Organizacja zajęć i zasady zaliczenia
- Obecność na zajęciach obowiązkowa (możliwość opuszczenia do dwóch zajęć
bez usprawiedliwienia).
- Na ocenę z zajęć składają się: dwa testy zaliczeniowe, wejściówki i tutoriale oraz
zadania domowe w proporcjach:
Dwa testy zaliczeniowe (łącznie) |
45% |
Wejściówki i tutoriale |
40% |
Zadanie domowe |
15% |
- Planowane są 2 tutoriale i 10 wejściówek.
Tutoriale będą dotyczyły języka R i zostaną zadane do rozwiązania
w domu z tygodniowym czasem wykonania.
Wejściówki (ok. 5-7 min,
jedno lub dwa krótkie pytania, odpowiedź na kartce)
będą się odbywały na początku większości zajęć i będą dotyczyły
materiału z poprzednich zajęć.
Wejściówek nie można poprawiać, a nieusprawiedliwiona
nieobecność na zajęciach oznacza 0 punktów z wejściówki.
Uwaga: przy liczeniu
łącznej oceny z wejściówek i tutoriali zostaną wyłączone dwie najgorsze
oceny oraz ewentualne zera związane z nieobecnościami usprawiedliwionymi.
- Nie jest konieczne zaliczenie żadnej z części z osobna, liczy się tylko
łączna ocena z testów, wejściówek i zadań domowych.