Celem przedmiotu jest zapoznanie studentów z podstawowymi technikami eksploracji danych i odkrywania wiedzy w bazach danych. Podczas laboratoriów studenci implementują i testują różne algorytmy eksploracji danych (określanie ważności atrybutów, odkrywanie cech, odkrywanie asocjacji, klasyfikacja, analiza skupień, regresja) oraz ćwiczą proces odkrywania wiedzy w bazach danych. Główny nacisk położony jest na ćwiczenia praktyczne, studenci poznają istniejące narzędzia służące do eksploracji danych (Oracle Data Mining, Weka, Rapid Miner, Orange Data Mining), jak i implementują własne rozwiązania przy użyciu języków SQL, PL/SQL, Python i Java.
*deadline
Końcowe oceny:
wyniki. Komentarz: Autor najlepszego projektu uzyskał blisko 96%. Uznane zostało to za 100%, a pozostałe oceny zostały przeskalowane. Jedna osoba miała +0,5 oceny za ukończony kurs MOOC, ale zdobyła ocenę 5.0 i wyższej wystawić nie mogę.
Projekt
Opis projektu zaliczeniowego znajduje się
tutaj | . Ostateczny termin nadsyłania rozwiązań:
30.06.2016 godz. 23:55
Dodatkowe materiały
Bibliografia
Książki
- Eksploracja danych. Metody i algorytmy, T. Morzy, Wydawnictwo Naukowe PWN 2013
- Data Mining: Concepts and Techniques, J. Han, M. Kamber, J. Pei, Morgan Kaufmann, 2005
- Handbook of Data Mining and Knowledge Discovery, W. Kloesgen, J. Zytkow, (eds) Oxford University Press, 2002
- Introduction to Data Mining , P. Tan, M. Steinbach, V. Kumar, Addison Wesley, 2005
- Data Mining: Practical Machine Learning Tools and Techniques, I. Witten, E. Frank, Morgan Kaufmann; 2 edition (June 10, 2005)
- The LION way: Machine Learning plus Intelligent Optimization, darmowa książka Roberto Battitiego i Mauro Brunato
Tutoriale
Kursy MOOC
- Data Mining: [aktualnie nieaktywny] kurs prowadzony przez Jiaweia Hana i Johna C. Harta, niekwestionowane autorytety w dziedzinie eksploracji danych. Kurs koncentruje się na wyszukiwaniu wzorców i technikach eksploracji tekstu. W ramach wykładów można zapoznać się z algorytmami odkrywania reguł asocjacyjnych, sekwencji czy wzorców w grafach, oraz podstawowymi pojęciami z dziedziny information retrieval i text mining. Osobny moduł poświęcony jest algorytmom analizy skupień (cluster analysis)
- Mining Massive Datasets: autorami kursu są najlepsi specjaliści ze Stanfordu: Jeff Ullman, Jure Leskovec i Anand Rajaraman. Kurs jest niejako uzupełnieniem tego, o czym rozmawiamy w trakcie laboratoriów z eksploracji danych, ponieważ koncentruje się bardziej na technikach dla big data, takich jak haszowanie czy MapReduce, ale zawiera też wykłady ściśle związane z naszym kursem: drzewa decyzyjne, redukcję wymiarowości, k-NN, SVM. To jest niezwykle przydatny kurs o dużej wartości.
- Machine Learning: jeszcze jeden kurs ze Stanfordu, tym razem przygotowany przez Andrew Ng, jednego z najbardziej znanych naukowców w obszarze uczenia maszynowego. Kurs jest bardzo przystępny, niezwykle starannie przygotowany i bardzo ciekawy. Jego jedyną wadą jest użycie w zadaniach języka Octave (zamiast R).
- Statistical Learninig: kurs przygotowany przez Trevora Hastie i Roba Tibshirani, bazujący na ich fantastycznej książce An Introduction to Statistical Learning with Applications in R. W ciemno mogę polecić ten kurs jako jeden z najlepszych dostępnych na rynku.
- Statistics: Making Sense of Data: bardzo przyjazny kurs prowadzony przez dwójkę młodych naukowców z University of Toronto. W prosty i przystępny sposób przedstawiają podstawowe pojęcia związane ze statystyką, testy statystyczne, próbkowanie, przedziały ufności, itp.
- Learning from Data: kurs z Caltechu z 2013 roku, dostępne tylko wykłady oraz slajdy. Lista tematów obejmuje wiele zagadnień w programie przedmiotu “Eksploracja danych”.
Programowanie
Oprogramowanie
W trakcie laboratoriów będą wykorzystywane następujące programy:
Zasady zaliczenia
Ocena końcowa określana jest na podstawie:
- wyników dwóch testów przeprowadzanych na zajęciach
- oceny z projektu końcowego
- ocen za realizację zadań na laboratoriach
Obecność na zajęciach jest obowiązkowa. Pierwsza nieusprawiedliwiona nieobecność nie ma wpływu na ocenę końcową. Każde kolejne dwie nieobecności obniżają ocenę o 0,5. W praktyce oznacza to, że można mieć dwie nieupsrawiedliwione nieobecności bez wpływu na ocenę końcową.
Za pozytywne ukończenie kursu Machine Learning (Andrew Ng) ocena może zostać podwyższona o 0,5.