Statystyka i Analiza Danych (SiAD)

Grupy

czwartek: 13:30, 16:50, 18:30

Konsultacje

czwartek, 15:10-16:40

Proponowane oceny

W tym pliku znajduje się zestawienie ocen z: raportów (R 1, R 2), testów (T 1, T 2), wejściówek + mniejszych zadań (W), i proponowana ocena końcowa. Wszystkie oceny numeryczne są standaryzowane [0,1]. W razie wątpliwości dotyczących proponowanej oceny i/lub chęci jej poprawienia proszę o kontakt.

Materiały do zajęć

Wszystkie materiały potrzebne podczas laboratorium znajdują się w repozytorium WebDAV przedmiotu.

Polecam stronę kolegi Mateusza Lango, na której znajduje się wiele dodatkowych materiałów.

Zadania domowe z R znajdują się na platformie DataCamp.

Opis instalacji Jupyter notebook z jądrem języka R - może przydać się jeśli chcecie rozwiązywać zadania laboratoryjne na własnym komputerze. Być może przydadzą się również dodatkowe informacje o tym jak poradzić sobie z instalacją na systemie Windows.

Wyniki wejściówek

Łączne wyniki dla wszystkich grup.

Zadanie domowe 2

Wykorzystując poprzednio wybrany zbiór danych (lub inny, jeśli zbiór nie zawierał zmiennych ciągłych) należy dokonać analizy zależności liniowej między zmiennymi stosując model regresji. Zadanie powinno obejmować następujące elementy:

  1. uzasadnienie wyboru zmiennych do modelu (wraz z przykładem praktycznego zastosowania),
  2. wizualizacja rozważanych danych na wykresie rozproszenia (XY, scatter),
  3. zbudowanie modelu regresji z jedną zmienną niezależną,
  4. wizualizacja modelu regresji na wykresie (wraz z danymi) oraz analiza statystyczna (test T lub F),
  5. diagnostyka modelu regresji (analiza reszt/rezyduów i sprawdzenie występowania rozkładu normalnego -- https://gallery.shinyapps.io/slr_diag/),
  6. ocena jakości modelu regresji z wykorzystaniem współczynnika determinacji R2 - czy uzyskany model dobrze zadziała w rozważanym zastosowaniu?
  7. dodanie do modelu co najmniej jednej dodatkowej zmiennej i sprawdzenie (testy T i F, współczynnik R2), czy jakość modelu uległa poprawie.

Podobnie jak poprzednio, zadanie domowe można wykonać korzystając z R-a lub arkusza kalkulacyjnego, natomiast sprawozdanie powinno mieć formę tradycyjnego dokumentu (w formacie PDF) lub notebooka R. Poza wymienionymi powyżej elementami powinno ono zawierać dodatkowo:

Termin nadsyłania sprawozdań to czwartek, 30 czerwca (spóźnienie będzie wiązało się z obniżeniem oceny - 10% za każdy dzień).

Zadanie domowe 1

Zadanie domowe poświęcone jest testowaniu hipotez i obejmuje następujące elementy:

  1. wybór zbioru danych do analizy -- można skorzystać z jednego z podanych poniżej źródeł danych, z innych źródeł (Google na pewno chętnie coś podpowie), albo też wygenerować dane samodzielnie (np. wykonując odpowiedni eksperyment obliczeniowy)
  2. wykonanie podstawowej analizy eksploracyjnej, tzn. przygotowanie szeregu rozdzielczego i histogramu (proszę zwrócić uwagę na sensowny dobór liczby klas) i wyznaczenie wartości podstawowych statystyk opisowych -- tutaj należy krótko uzasadnić wybór statystyki oraz skomentować uzyskany wynik,
  3. postawienie co najmniej jednej hipotezy dotyczącej danych i przetestowanie jej. W przypadku, gdy zbiór danych dotyczy całej populacji (np. dane z GUS), do testów należy wybrać podzbiór danych oraz skomentować, czy popełniono błąd I lub II rodzaju.

Zadanie domowe można wykonać korzystając z R-a lub arkusza kalkulacyjnego, natomiast sprawozdanie powinno mieć formę tradycyjnego dokumentu (w formacie PDF) lub notebooka R. Powinno ono zawierać następujące elementy:

  1. imię, nazwisko i grupę (dzień, godzina) autora,
  2. opis zbioru danych -- skąd pochodzi, czego dotyczy, cz są to dane obserwacyjne, czy też eksperymentalne,
  3. wynik analizy eksploracyjnej -- wykresy i wartości statystyk opisowych wraz z krótkimi komentarzami,
  4. wynik testowania hipotez -- sformułowanie hipotezy, wybór testu i weryfikacja jego wymagań, opis i wynik procesu wnioskowania,
  5. ewentualne komentarze i spostrzeżenia dotyczące danych i wyników analizy.

Obserwacje i komentarze mogą być w formie punktowej (nie musi być to proza). Termin nadsyłania sprawozdań to czwartek, 25 maja (spóźnienie będzie wiązało się z obniżeniem oceny - 10% za każdy dzień). Jednak do najbliższego czwartku (18 maja) proszę o informację, jakie zbiory danych będziecie wykorzystywali.

Organizacja zajęć i zasady zaliczenia