Eksploracja Masywnych Danych (Zaawansowana Eksploracja Danych)
Dariusz Brzeziński
Agenda
- Cel zajęć
- Zasady gry
- Wstępny plan
Odkrywanie wiedzy
- Selekcja danych
- Czyszczenie i wstępne przetwarzanie danych
- Przekształcenie i redukcja danych
- Wybór zadania/zadań eksploracji danych
- Eksploracja danych
- Interpretacja, analiza i ocena odkrytej wiedzy, wizualizacja
odkrytych wzorców
Cel zajęć
- Praca nad całym procesem odkrywania wiedzy
- Praktyczna eksploracja danych (R + Python)
- Omówienie najczęstszych problemów pojawiających się podczas analizy danych
- Przedstawienie kliku bardziej złożonych metod uczenia maszynowego
- Samodzielna praca z prawdziwymi danymi
- Nauka interpretacji uzyskanych wyników
- Tworzenie raportów i interaktywnych wizualizacji
Zasady gry
- Metoda zaliczenia do wyboru:
- 2 projekty:
- Raport z analizy danych (R + knitr)
- Raport z uczenia maszynowego (Python + Notebook).
- Co najmniej 9/11 zadań z poszczególnych laboratoriów
- Metoda mieszana - projekt z R oraz 5/6 zadań z lab dot. pythona lub projekt z pythona i 4/5 zadań z lab dot. R
Zasady gry c.d.
- Ocena końcowa - średnia z ocen za 2 projekty lub 9 zadań (w przypadku metody mieszanej - waga oceny za projekt = suma wag za zadania lab)
- Zadania/projekty realizowane w parach
- Termin przesłania zadania z danego lab podany przy temacie
- Terminy przesłania projektów podany wraz z projektami
Wstępny plan
- Programowanie w R
- Czyszczenie i analiza danych
- Powtarzalne eksperymenty i raportowanie
- Interaktywna wizualizacja danych
- Regresja, klasyfikacja i grupowanie
- Bardziej zaawansowane metody uczenia maszynowego (analiza tekstu i sentymentu, topic modeling, word embeddings, uczenie głębokie)