Home
Zadanie domowe: Analiza eksploracyjna + test statystyczny
<< Statystyka i Analiza Danych
Definicja zadania
- Cel główny – praca nad zbiorem danych: analiza eksploracyjna i testowanie statystyczne
- Wybór zbioru danych:
- https://www.kaggle.com/datasets
- https://scholarworks.umass.edu/data/
- https://stat.gov.pl/podstawowe-dane/
- https://github.com/fivethirtyeight
- https://www.openintro.org/
- inne źródło
- własny zbiór (posiadany lub zebrany)
- Uwaga: wybrany zbiór powinien być unikalny - upewnij się, że twoi znajomi pracują nad innymi zbiorami!
- Analiza eksploracyjna, w tym szereg rozdzielczy (jeden bądź więcej), histogramy (ważny jest poprawny dobór liczby przedziałów), wyznaczenie wartości statystyk opisowych, dodatkowe wykresy oraz krótka analiza słowna (wypunktowanie najważniejszych wniosków/obserwacji)
- Uwaga: nie chodzi o liczenie wszystkich możliwych statystyk i rysowanie wszystkich możliwych wykresów. Każdy wykres/wynik należy opatrzyć krótkim (1-2 zdania) komentarzem. Ponieważ jest to wstępne badanie danych, wykonanie obliczeń/wykresu powinno być czymś motywowane, a interpretacja wyniku może być "Niestety, nie wyszło".
- Test statystyczny: postawić co najmniej jedną sensowną hipotezę dotyczącą danych i przetestować ją z użyciem jednego ze znanych testów. W przypadku gdy zbiór danych stanowi całą populację należy wylosować/wyodrębnić podzbiór oraz finalnie skomentować czy popełniono błąd I rodzaju lub błąd II rodzaju
Forma i termin realizacji
- Termin: 09.06.23. Za każdy rozpoczęty tydzień spóźnienia -10% od oceny
- Zadanie należy wysłać na maila prowadzącego z tagiem [SiAD][LX] gdzie X to numer twojej grupy.
- Wynikiem powinien być plik zip zawierający:
- Plik notebooka R / raport (w trzech formatach: ipynb, pdf, html)
- Analizowany zbiór danych (jeśli raport nie zawiera linku do niego)
- Wynik powinien zawierać:
- imię, nazwisko, numer albumu autora
- (1 pkt) opis zbioru danych: skąd pochodzi (warto podać link, jeśli istnieje), co zawiera, jak powstał (czy jako obserwacja, czy jako wynik eksperymentu), itp. (maks. pół strony)
- (6 pkt) część dotycząca analizy eksploracyjnej (wykresy, statystyki opisowe, motywacje)
- Uwaga: wszystkie wykresy muszą być wygenerowane w R. Wykresy wstawione do raportu jako rysunki (np. z Excela) nie będą akceptowane!
- (7 pkt) część dotycząca testowania hipotez (sformułowanie hipotez, wybór testu, sprawdzenie założeń, obliczenia i wynik wraz z wnioskiem)
- (1 pkt) podsumowanie w formie wypunktowania: motywacje wyborów, wnioski, propozycje dalszych kroków, itp.
- (bonus) ocena może być zmodyfikowana (na plus bądź minus) zależnie od staranności wykonania