Analiza i Eksploracja Danych

Osoba prowadzaca: dr hab inz. Jerzy Stefanowski -
e-mail: Jerzy.Stefanowski@cs.put.poznan.pl,
http://www.cs.put.poznan.pl/~stefan

(Przedmiot obowiazkowy dla specjalnosci TPD)
Semestr 9 - wyklad 2 godz., laboratorium 2 godz.

1. Cel i zakres przedmiotu:

Celem przedmiotu jest przedstawienie problematyki i zastosowan systemów odkrywania wiedzy w bazach danych, w szczególnosci, etapu eksploracji danych (ang. data mining). Zakres przedmiotu obejmuje nastepujace zagadnienia: Definicja procesu odkrywania wiedzy w bazach danych. Klasyfikacja róznych reprezentacji wiedzy. Podstawowe zadania w statystycznej analizie i eksploracji danych. Zwiazki systemów odkrywania wiedzy z magazynami danych. Statystyczne badanie zaleznosci w wielowymiarowych danych. Regresja wielowymiarowa. Wstepne przetwarzanie danych: oczyszczanie danych, transformacja i integracja róznego rodzaju danych, redukcja rozmiarów danych, selekcja atrybutów, agregacja w kostkach danych, dyskretyzacja atrybutów liczbowych. Tworzenie opisów pojec. Poszukiwane wiedzy klasyfikacyjnej w danych. Wykorzystane metod indukcyjnych uczenia maszynowego do tworzenia systemów klasyfikujacych. Kryteria oceny systemów. Analiza skupien (algorytmy iteracyjno-optymalizacyjne, hierarchiczne, gestosciowe). Skalowalnosc obliczen w wielkich bazach danych. Analiza zlozonych typow danych na przykladzie Web- i Tex-mining. Metody sztucznej inteligencji w przeszukiwaniu Internetu. Wizualizacja danych i ocena odkrytej wiedzy. Przeglad wybranych systemów odkrywania wiedzy. Zastosowania metod eksploracji danych i odkrywania wiedzy.

2. Wymagane wiadomosci

Podstawowe wiadomosci z zakresu analizy danych. Zalecane wczesniejsze uczestnictwo w przedmiocie „Uczenie maszynowe i sieci neuronowe” oraz przedmiocie dotyczacym statystycznej analizy danych.

Termin wykladu w obecnym semestrze - czwartek 13.40 - 15.10, planowana maksymalna liczba studentów 40 osób.

Materiały pomocnicze do laboratorium:
Cwiczenie 1. Poszukiwanie zaleznosci w wielowymiarowych tablicach danych  - zaleznosci-regresja.pdf
Pliki przydatne do realizacji czesci 1 w cwiczeniu nr1: zad1.2, zad1.3, zad1.4, zad1.extra
Cwiczenie 2. Indukcja drzew klasyfikacyjnych z danych  - cwicz-inddrzew.pdf

Case Studies. - materialy do realizacji cwiczen case studies - materialy juz niedostepne.

Metoda oceny:
Sprawdziany na laboratorium. Wykonanie tzw. "case studies". Egzamin pisemny.

Literatura

Pytania mozesz kierowac do Jerzy.Stefanowski@cs.put.poznan.pl

Jerzy Stefanowski
Strona utworzona: 9.02.2001, ostatnia modyfikacja: 17. 10.2003