Celem przedmiotu jest zapoznanie studentów z podstawowymi technikami eksploracji danych i odkrywania wiedzy w bazach danych. Podczas laboratoriów studenci implementują i testują różne algorytmy eksploracji danych (określanie ważności atrybutów, odkrywanie cech, odkrywanie asocjacji, klasyfikacja, analiza skupień, regresja) oraz ćwiczą proces odkrywania wiedzy w bazach danych. Główny nacisk położony jest na ćwiczenia praktyczne, studenci poznają istniejące narzędzia służące do eksploracji danych (Oracle Data Mining, Weka, Rapid Miner, Orange Data Mining), jak i implementują własne rozwiązania przy użyciu języków SQL, PL/SQL, Python i Java.


Lp.TematZadanie
1 Wprowadzenie brak
2 Narzędzia obróbki danych: Orange Data Mining Mosty 1.04.2016*
3 Narzędzia obróbki danych: Weka i RapidMiner Szyfr 8.04.2016*
4 Ocena ważności atrybutów brak
5 Odkrywanie reguł asocjacyjnych Filmy 25.04.2016*
6 Wprowadzenie do klasyfikacji brak
7 Naiwny klasyfikator Bayesa brak
8 Drzewa decyzyjne (część I) brak
9 Drzewa decyzyjne (część II) brak
10 SVM brak
11 Analiza skupień brak
12 Meta-metody klasyfikacji brak
*deadline

Projekt

Opis projektu zaliczeniowego znajduje się tutaj . Ostateczny termin nadsyłania rozwiązań: 30.06.2016 godz. 23:55

Dodatkowe materiały

Bibliografia

Książki
Tutoriale
Kursy MOOC
  • Data Mining: [aktualnie nieaktywny] kurs prowadzony przez Jiaweia Hana i Johna C. Harta, niekwestionowane autorytety w dziedzinie eksploracji danych. Kurs koncentruje się na wyszukiwaniu wzorców i technikach eksploracji tekstu. W ramach wykładów można zapoznać się z algorytmami odkrywania reguł asocjacyjnych, sekwencji czy wzorców w grafach, oraz podstawowymi pojęciami z dziedziny information retrieval i text mining. Osobny moduł poświęcony jest algorytmom analizy skupień (cluster analysis)
  • Mining Massive Datasets: autorami kursu są najlepsi specjaliści ze Stanfordu: Jeff Ullman, Jure Leskovec i Anand Rajaraman. Kurs jest niejako uzupełnieniem tego, o czym rozmawiamy w trakcie laboratoriów z eksploracji danych, ponieważ koncentruje się bardziej na technikach dla big data, takich jak haszowanie czy MapReduce, ale zawiera też wykłady ściśle związane z naszym kursem: drzewa decyzyjne, redukcję wymiarowości, k-NN, SVM. To jest niezwykle przydatny kurs o dużej wartości.
  • Machine Learning: jeszcze jeden kurs ze Stanfordu, tym razem przygotowany przez Andrew Ng, jednego z najbardziej znanych naukowców w obszarze uczenia maszynowego. Kurs jest bardzo przystępny, niezwykle starannie przygotowany i bardzo ciekawy. Jego jedyną wadą jest użycie w zadaniach języka Octave (zamiast R).
  • Statistical Learninig: kurs przygotowany przez Trevora Hastie i Roba Tibshirani, bazujący na ich fantastycznej książce An Introduction to Statistical Learning with Applications in R. W ciemno mogę polecić ten kurs jako jeden z najlepszych dostępnych na rynku.
  • Statistics: Making Sense of Data: bardzo przyjazny kurs prowadzony przez dwójkę młodych naukowców z University of Toronto. W prosty i przystępny sposób przedstawiają podstawowe pojęcia związane ze statystyką, testy statystyczne, próbkowanie, przedziały ufności, itp.
  • Learning from Data: kurs z Caltechu z 2013 roku, dostępne tylko wykłady oraz slajdy. Lista tematów obejmuje wiele zagadnień w programie przedmiotu “Eksploracja danych”.
Programowanie

Oprogramowanie

W trakcie laboratoriów będą wykorzystywane następujące programy:

Zasady zaliczenia

Ocena końcowa określana jest na podstawie:
  • wyników dwóch testów przeprowadzanych na zajęciach
  • oceny z projektu końcowego
  • ocen za realizację zadań na laboratoriach
Obecność na zajęciach jest obowiązkowa. Pierwsza nieusprawiedliwiona nieobecność nie ma wpływu na ocenę końcową. Każde kolejne dwie nieobecności obniżają ocenę o 0,5. W praktyce oznacza to, że można mieć dwie nieupsrawiedliwione nieobecności bez wpływu na ocenę końcową. Za pozytywne ukończenie kursu Machine Learning (Andrew Ng) ocena może zostać podwyższona o 0,5.