Statystyka i Analiza Danych (SiAD)
Grupy
poniedziałek: 8:00, 9:45; wtorek: 8:00
Konsultacje
wtorek, 9:45-13:15
Wyniki wyjściówek, zadania domowego, testów i proponowane oceny.
Zadanie domowe
Zadanie domowe poświęcone jest testowaniu hipotez i obejmuje następujące elementy:
- wybór zbioru danych do analizy -- można skorzystać z jednego z podanych poniżej źródeł danych, z innych źródeł (Google na pewno chętnie coś podpowie), albo też wygenerować dane samodzielnie (np. wykonując odpowiedni eksperyment obliczeniowy)
- https://www.openintro.org/stat/extras.php (sekcja Data and Analysis)
- http://mlr.cs.umass.edu/ml/ (część zbiorów z tego repozytorium jest wbudowanych w R-a)
- https://github.com/fivethirtyeight/data/tree/master/
- http://stat.gov.pl/podstawowe-dane/
- wykonanie podstawowej analizy eksploracyjnej, tzn. przygotowanie szeregu rozdzielczego i histogramu (proszę zwrócić uwagę na sensowny dobór liczby klas) i wyznaczenie wartości podstawowych statystyk opisowych -- tutaj należy krótko uzasadnić wybór statystyki oraz skomentować uzyskany wynik,
- postawienie co najmniej jednej hipotezy dotyczącej danych i przetestowanie jej. W przypadku, gdy zbiór danych dotyczy całej populacji (np. dane z GUS), do testów należy wybrać podzbiór danych oraz skomentować, czy popełniono błąd I lub II rodzaju.
Zadanie domowe można wykonać korzystając z R-a lub arkusza kalkulacyjnego, natomiast sprawozdanie powinno mieć formę tradycyjnego dokumentu (w formacie PDF) lub notebooka R. Powinno ono zawierać następujące elementy:
- imię, nazwisko i grupę (dzień, godzina) autora,
- opis zbioru danych -- skąd pochodzi, czego dotyczy, cz są to dane obserwacyjne, czy też eksperymentalne,
- wynik analizy eksploracyjnej -- wykresy i wartości statystyk opisowych wraz z krótkimi komentarzami,
- wynik testowania hipotez -- sformułowanie hipotezy, wybór testu i weryfikacja jego wymagań, opis i wynik procesu wnioskowania,
- ewentualne komentarze i spostrzeżenia dotyczące danych i wyników analizy.
Obserwacje i komentarze mogą być w formie punktowej (nie musi być to proza). Do najbliższej niedzieli (19 maja) proszę o informację, jakie zbiory danych będziecie wykorzystywali (chciałbym aby zbiory były unikalne - decyduje kolejność zgłoszeń).
Materiały do zajęć
Wszystkie materiały potrzebne podczas laboratorium znajdują się w repozytorium WebDAV przedmiotu.
Zadania domowe z R znajdują się na platformie DataCamp. Po pierwszych zajęciach proszę wypełnić kurs Introduction to R jako zadanie domowe.
Slajdy pokazywane podczas laboratorium znajdują się tu.
Polecam stronę kolegi Mateusza Lango, na której znajduje się wiele dodatkowych materiałów.
Opis instalacji Jupyter notebook z jądrem języka R - może przydać się jeśli chcecie rozwiązywać zadania laboratoryjne na własnym komputerze. Być może przydadzą się również dodatkowe informacje o tym jak poradzić sobie z instalacją na systemie Windows.
Organizacja zajęć i zasady zaliczenia
- Obecność na zajęciach obowiązkowa (możliwość opuszczenia do dwóch zajęć bez usprawiedliwienia).
- Na ocenę z zajęć składają się: dwa testy zaliczeniowe, wejściówki i wyjściówki oraz
dwa zadania domowe w proporcjach:
- Dwa testy zaliczeniowe (łącznie): 45%
- Wyjściówki i tutoriale: 40%
- Zadania domowe (łącznie): 15%
- Planowane jest 10 wyjściówek i 2 tutoriale. Wyjściówki (ok. 5 min, jedno krótkie pytanie, odpowiedź na kartce) będą się odbywały na początku lub końcu większości zajęć i będą dotyczyły materiału obowiązującego na zajęciach i przedstawionego na zajęciach i/lub wykładach. Wyjściówek nie można poprawiać, a nieusprawiedliwiona nieobecność na zajęciach oznacza 0 punktów z wyjściówki. Tutoriale będą dotyczyły języka R i zostaną zadane do rozwiązania w domu z tygodniowym czasem wykonania. Uwaga: przy liczeniu łącznej oceny z wejściówek i tutoriali zostaną wyłączone dwie najgorsze oceny oraz ewentualne zera związane z nieobecnościami usprawiedliwionymi.
- Nie jest konieczne zaliczenie żadnej z części z osobna, liczy się tylko łączna ocena z testów, wejściówek i zadań domowych.