Osoba prowadzaca: dr hab inz. Jerzy Stefanowski -
e-mail: Jerzy.Stefanowski@cs.put.poznan.pl,
http://www.cs.put.poznan.pl/~stefan
(Przedmiot obowiazkowy dla specjalnosci TPD)
Semestr 9 - wyklad 2 godz., laboratorium 2 godz.
1. Cel i zakres przedmiotu:
Celem przedmiotu jest przedstawienie problematyki i zastosowan systemów odkrywania wiedzy w bazach danych, w szczególnosci, etapu eksploracji danych (ang. data mining). Zakres przedmiotu obejmuje nastepujace zagadnienia: Definicja procesu odkrywania wiedzy w bazach danych. Klasyfikacja róznych reprezentacji wiedzy. Podstawowe zadania w statystycznej analizie i eksploracji danych. Zwiazki systemów odkrywania wiedzy z magazynami danych. Statystyczne badanie zaleznosci w wielowymiarowych danych. Regresja wielowymiarowa. Wstepne przetwarzanie danych: oczyszczanie danych, transformacja i integracja róznego rodzaju danych, redukcja rozmiarów danych, selekcja atrybutów, agregacja w kostkach danych, dyskretyzacja atrybutów liczbowych. Tworzenie opisów pojec. Poszukiwane wiedzy klasyfikacyjnej w danych. Wykorzystane metod indukcyjnych uczenia maszynowego do tworzenia systemów klasyfikujacych. Kryteria oceny systemów. Analiza skupien (algorytmy iteracyjno-optymalizacyjne, hierarchiczne, gestosciowe). Skalowalnosc obliczen w wielkich bazach danych. Analiza zlozonych typow danych na przykladzie Web- i Tex-mining. Metody sztucznej inteligencji w przeszukiwaniu Internetu. Wizualizacja danych i ocena odkrytej wiedzy. Przeglad wybranych systemów odkrywania wiedzy. Zastosowania metod eksploracji danych i odkrywania wiedzy.
2. Wymagane wiadomosci
Podstawowe wiadomosci z zakresu analizy danych. Zalecane wczesniejsze uczestnictwo w przedmiocie „Uczenie maszynowe i sieci neuronowe” oraz przedmiocie dotyczacym statystycznej analizy danych.
Termin wykladu w obecnym semestrze - czwartek 13.40 - 15.10, planowana maksymalna liczba studentów 40 osób.
Materiały pomocnicze do laboratorium:
Cwiczenie 1. Poszukiwanie zaleznosci w wielowymiarowych tablicach danych
- zaleznosci-regresja.pdf
Pliki przydatne do realizacji czesci 1 w cwiczeniu nr1:
zad1.2, zad1.3, zad1.4,
zad1.extra
Cwiczenie 2. Indukcja drzew klasyfikacyjnych z danych
- cwicz-inddrzew.pdf
Case Studies.
- materialy do realizacji cwiczen case studies - materialy juz niedostepne.
Metoda oceny:
Sprawdziany na laboratorium. Wykonanie tzw. "case studies". Egzamin pisemny.
Literatura
Jerzy Stefanowski
Strona utworzona: 9.02.2001, ostatnia modyfikacja: 17. 10.2003