Analiza dużych zbiorów danych

Prowadzący

dr hab inż. Agnieszka Ławrynowicz

Zasady oceniania

Projekt

Ocena będzie wystawiona za realizację i prezentację projektu w zespołach 2-3 osobowych.
Początek semestru będzie poświęcony w głównej mierze wykładom i demonstracjom tutorialowym, przygotowującym do realizacji projektu. Druga połowa semestru będzie poświęcona w głównej mierze realizacji projektu.

Lista kontrolna projektu:

1. Analiza wstępna (ang. exploratory analysis) (20%)

  • ile cech ma zbiór danych? 
  • jakiego typu są cechy (numeryczne, symboliczne itp.)?
  • wizualizacja danych (np. za pomocą histogramów) 
  • czy mamy do czynienia z niezbalansowanymi danymi (bardzo duża przewaga przykładów z wybranej klasy)? 
  • czy mamy wielowymiarowy zbiór (wiele cech, być może więcej niż przykładów)? 
  • czy występują brakujące wartości?

2. Przetwarzanie wstępne (30%): 

  • selekcja i/lub konstrukcja cech (np. poprzez usuwanie cech z małą lub zerową wariancją, usuwanie cech skorelowanych itp., dodawanie nowych cech np. poprzez tworzenie jednej cechy z dwóch albo przekształceń typu log(x), sqrt(x) itp.), 
  • poradzenie sobie z problemem ewentualnych brakujących wartości (zastąpienie zerami, medianą, usunięcie atrybutu itd.), 
  • transformacja cech np. z symbolicznych do kodowania gorącojedynkowego (ang. one-hot encoding) w celu przygotowania ich na wejście do implementacji algorytmów uczących
  • standaryzacja lub normalizacja cech

3. Wybór modeli i uczenie modeli (30%):

  • strojenie hiperparametrów (poprzez np. “grid search”), można rozważyć wybrane przekształcenia danych jako hiperparametry (np. włączyć do procesu strojenia hiperparametrów zagadnienia takiej jak: czy brakujące wartości powinny zostać wypełnione zerami czy medianą?)
  • ewaluacja modeli, 
  • ewentualne połączenie modeli w zespoły

4. Prezentacja wyników (20%)

Wykład

W trakcie semestru zostanie udostępnionych pięć quizzów, każdy po 5 pkt, które będą składać się na łączną oceną z wykładu (termin realizacji quizzu – do dwóch tygodni po wykładzie).

W zależności od uzyskanej liczby punktów otrzymacie Państwo następujące oceny:

punkty ocena
powyżej 21 bardzo dobry
19-21 dobry plus
16-18 dobry
13-15 dostateczny plus
10-12 dostateczny
poniżej 10 niedostateczny

Slajdy z wykładów

1) Wprowadzenie

2) Regresja, klasyfikacja , ocena klasyfikacji

3) Przetwarzanie wstępne

4) Regularyzacja

5) Sieci neuronowe  - wprowadzenie

6) Splotowe sieci neuronowe

Quizy

Quiz1 (termin wykonania: 13 listopada 2019)

Literatura podstawowa

Aurélien Géron, Uczenie maszynowe z użyciem Scikit-Learn i TensorFlow, Helion, 2018.