Zaawansowana eksploracja danych

Dariusz Brzeziński

Wprowadzenie

Agenda

  • Cel zajęć
  • Zasady gry
  • Wstępny plan

Odkrywanie wiedzy

  1. Selekcja danych
  2. Czyszczenie i wstępne przetwarzanie danych
  3. Przekształcenie i redukcja danych
  4. Wybór zadania/zadań eksploracji danych
  5. Eksploracja danych
  6. Interpretacja, analiza i ocena odkrytej wiedzy, wizualizacja odkrytych wzorców

Cel zajęć

  • Praca nad całym procesem odkrywania wiedzy
  • Praktyczna eksploracja danych (R + Python)
  • Omówienie najczęstszych problemów pojawiających się podczas analizy danych
  • Przedstawienie kliku bardziej złożonych metod uczenia maszynowego
  • Samodzielna praca z prawdziwymi danymi
  • Nauka interpretacji uzyskanych wyników
  • Tworzenie raportów i interaktywnych wizualizacji

Próbka

Badanie korelacji

Próbka

Ranking w czasie

Próbka

Wielowymiarowy histogram

Próbka

Wielowymiarowa wizualizacja

Próbka

Mapy

Próbka

Zasady gry

  • Obecność
  • Kartkówki (w tym roku raczej quizy)
  • Raport z analizy danych (R + knitr)
  • Raport z uczenia maszynowego (Python + Notebook)
  • Dla chętnych dodatkowa aplikacja (R + shiny i/lub Python + Dash)

Wstępny plan

  • Programowanie w R
  • Czyszczenie i analiza danych
  • Powtarzalne eksperymenty i raportowanie
  • Interaktywna wizualizacja danych
  • Regresja, klasyfikacja i grupowanie
  • Bardziej zaawansowane metody uczenia maszynowego (analiza tekstu i sentymentu, topic modeling, word embeddings, uczenie głębokie)