Dydaktyka

Statystyka i analiza danych (semestr letni 2018-19)

DataCamp

Podziękowania dla DataCamp za darmowe udostępnienie poziomu Premium dla naszej grupy. Daje on pełen dostęp do wszystkich (100+) kursów udostępnionych w ramach platformy i dotyczących zaawansowanej analizy i przetwarzania danych za pomocą systemu R, Python-a oraz SQL-a. Dostęp będzie otwarty przez najbliższe 6 miesięcy (do 28.08) i gorąco zachęcam do zapoznania się z innymi kursami.

Oceny końcowe

Zaktualizowałem propozycję ocen końcowych - znajdują się one w tym arkuszu (zakładka Podsumowanie) i uwzględniają (wreszcie - bardzo przepraszam za opóźnienie) oceny z zadań domowych. Szczegółowe wyniki z zadania domowego znajdują się natomiast w tym arkuszu.

Testy na wykładzie

Wyniki z pierwszego testu na wykładzie są dostępne tutaj. Na najbliższe zajęcia przyniosę prace do wglądu.

Wyjściówki

Aktualne wyniki wyjścówek (oraz tutoriali z R) dostępne są w tym arkuszu. Poszczególne oceny wyrażone są na skali 0..1. Ocena "zdyskretyzowana" będzie wyznaczana dopiero na koniec zajęć.

Zadanie domowe

Zadanie domowe poświęcone jest testowaniu hipotez i obejmuje następujące elementy:

  1. wybór zbioru danych do analizy -- można skorzystać z jednego z podanych poniżej źródeł danych, z innych źródeł (Google na pewno chętnie coś podpowie), albo też wygenerować dane samodzielnie (np. wykonując odpowiedni eksperyment obliczeniowy, można też wykorzystać wyniki eksperymentów wykonanych na innych zajęciach)
  2. wykonanie podstawowej analizy eksploracyjnej, tzn. przygotowanie szeregu rozdzielczego i histogramu (proszę zwrócić uwagę na sensowny dobór liczby przedziałów klasowych, zgodnie ze wskazówkami z wykładu) i wyznaczenie wartości podstawowych statystyk opisowych -- tutaj należy krótko uzasadnić wybór statystyk (np. odpowiednich dla skal pomiarowych, na których wyrażono dane) oraz skomentować uzyskany wynik,
  3. postawienie co najmniej jednej hipotezy dotyczącej danych i przetestowanie jej. W przypadku, gdy zbiór danych dotyczy całej populacji (np. dane z GUS), do testów należy wybrać podzbiór danych oraz skomentować, czy popełniono błąd I lub II rodzaju.

Zadanie domowe można wykonać korzystając z R-a lub arkusza kalkulacyjnego, natomiast sprawozdanie powinno mieć formę tradycyjnego dokumentu (w formacie PDF) lub notebooka R. Powinno ono zawierać następujące elementy:

  1. imię, nazwisko i grupa (dzień, godzina) autora,
  2. opis zbioru danych -- skąd pochodzi, czego dotyczy, czy są to dane obserwacyjne, czy też eksperymentalne,
  3. wynik analizy eksploracyjnej -- wykresy i wartości statystyk opisowych wraz z krótkimi komentarzami,
  4. wynik testowania hipotez -- sformułowanie hipotezy, wybór testu i weryfikacja jego wymagań, opis i wynik procesu wnioskowania,
  5. ewentualne komentarze i spostrzeżenia dotyczące danych i wyników analizy.

Obserwacje i komentarze mogą być w formie punktowej (nie musi być to proza). Termin nadsyłania sprawozdań to niedziela, 12 maja (spóźnienie będzie wiązało się z obniżeniem oceny -- 10% za każdy dzień). Jednak do niedzieli, 5 maja, proszę o informację, jakie zbiory danych będziecie wykorzystywali. Chciałbymm aby zbiory danych były unikalne -- poniżej będę zamieszczał listę zbiorów wybranych już do analizy (kto pierwszy, ten lepszy...:).

Wybrane zbiory danych:

  1. Eurowizja
  2. bad-drivers
  3. produkcja śmieci (GUS)
  4. wine
  5. congress-age
  6. alcohol-consumption
  7. comic-characters
  8. Oscars
  9. Tarantino
  10. energia ze źródeł odnawialnych (GUS)
  11. oczyszczane ścieki komunalne (GUS)
  12. police-deaths
  13. murder-2016
  14. bob-ross
  15. police-killings
  16. bezrobocie (GUS)
  17. airline-safety
  18. births
  19. avengers
  20. nfl-ticket-prices
  21. sleeping-alone

Laboratoria

Zajęcia 11. Testy Chi2

Dodatkowe materiały

Zajęcia 10. Korelacja i regresja (część 2)

Dodatkowe materiały

Zajęcia 9. Korelacja i regresja (część 1)

Dodatkowe materiały

Zajęcia 8. Testy Z i t - dwie populacje

Dodatkowe materiały

Zajęcia 7. Testy Z i t - jedna populacja

Dodatkowe materiały

Zajęcia 6. Testy - frakcja

Dodatkowe materiały

Zajęcia 5. Estymatory punktowe i przedziałowe

Dodatkowe materiały

Zajęcia 4. Rozkłady prawdopodobieństwa

Dodatkowe materiały

Zajęcia 3. Statystyka opisowa

Dodatkowe materiały

Zajęcia 2. Wprowadzenie do R

Zaproszenie do grupy rozesłałem w piątek (1.03) ok. 15:30. Jeśli do kogoś z Państwa nie dotarło, to proszę o sygnał. Poza tym zdefiniowałem zadania do wykonania - po 3 na każdą część tutoriala. Zadania z drugiej części można zrobić już teraz -- nie trzeba czekać do przyszłego tygodnia.

Zajęcia 1. Grupowanie i histogramy

Materiały wykładowe

Organizacja zajęć

  • Zajęcia mają charakter ćwiczeniowy - obecność na nich jest obowiązkowa (dwie nieobecności nieusprawiedliwione bez konsekwencji, możliwość odrabiania zajęć u innych prowadzących - z uwagi na możliwe przesunięcia między grupami proszę się upewniać, że odrabiane są właściwe zajęcia).
  • Na zajęciach będziemy korzystali z arkuszy kalkulacyjnych (LibreOffice) oraz z systemu R. Będą też jedne zajęcia bez komputera (albo z ograniczonym jego wykorzystaniem).
  • Na większości zajęć (od trzecich) będą wyjściówki (proste zadanie lub pytanie teoretyczne - 5-7 minut liczenia/pisania) z materiału przerobionego na poprzedzających zajęciach. Wyjściówki będą realizowane w sposób tradycyjny (papierowy - wydrukowane zadania będę przynosił na zajęcia).
  • Wyjściówki będą oceniane procentowo, ocen nie będzie można poprawiać, poza tym nieobecność nieusprawiedliwiona będzie wiązała się z oceną 0%.
  • Poza wejściówkami będą dwa do wykonania dwa tutoriale z systemu R (przygotowane w DataCamp-ie). Na wykonanie każdego z nich będzie tydzień.
  • Na koniec semestru zostanie wyznaczona ocena średnia z wejściówek i tutoriali - z obliczeń zostaną wyłączone dwie najgorsze oceny oraz ewentualne zera związane z nieobecnościami usprawiedliwionymi.
  • Na zajęciach będzie też jedno zadanie domowe - z testowania hipotez i/lib z korelacji i regresji. Na wykonanie każdego go będzie tygodnie (potem 5% kary za każdy dzień opóźnienia). Zadania będą mogły być realizowane tradycyjny (arkusz kalkulacyjny + raport) lub w formie notatnikaa Jupyter-a.
  • Ostateczna ocena będzie sumą ważoną z następującymi wagami:
    • 0.40 - średnia ocena z wyjściówek i tutoriali,
    • 0.15 - ocena z zadania domowego,
    • 0.45 - średnia ocena z testów na wykładzie.
  • Zaliczenie wykładu nie będzie konieczne do zaliczenia laboratorium.
  • Slajdy organizacyjne