Zaawansowana eksploracja danych (specjalność TPD -3 sem PP) 
materiały do ćwiczeń poświęconych tzw. studiom przypadków

Osoba prowadzaca: dr hab inz. Jerzy Stefanowski, prof. nadzw.
 Instytut Informatyki Politechniki Poznańskiej
Informacje nt zajec laboratoryjnych poswieconych case studies;
Dalsze informacje o przebiegu case study przekaże prowadzący

(Copyright by Jerzy Stefanowski
 zastrzeżenia dotyczą opisu problemu i ograniczonej dostępności do danych
wolno je wykorzystywać wyłącznie do wykonania ćwiczeń w ramach przedmiotu)

 

1. Case study 1:

Celem zajec jest zastosowanie metod eksploracji danych do problemow klasyfikacyjnych.
(Zwroc takze uwage na inne etapy wstepnego przetwarzania danych!)

Pliki z danymi zostaną bezpośrednio przekazane przez prowadzącego.

Materiały dotyczące poszczególnych problemów::
Case 1.1. Analiza danych medycznych nt. leczenia pacjentów cierpiących na chorobę wrzodową dwunastnicy 
Plik z opisem problemu i uwagami metodycznymi - case11.pdf

Case 1.2. Analiza diagnostycznej bazy danych 
Plik z opisem problemu i uwagami metodycznymi - case12.pdf
UWAGA - nie zaleca sie wyboru tego przypadku od edycji 2009 same pliki z danymi +
Interpretacja rozszerzona -> słowna w trakcie konsultacji ,

Case 1.3. Analiza danych medycznych nt. leczenia pacjentów cierpiących na kamice nerkową
Plik z opisem problemu i uwagami metodycznymi - case13.pdf oraz plik z opisem angielskim eswl.pdf
Pliki z danymi +
Interpretacja rozszerzona -> słowna w trakcie konsultacji

Case 1.4. Analiza danych o predykcji kosztow tworzenia oprogramowania. 
Plik z opisem problemu i uwagami metodycznymi - case14.pdf
Pliki z danymi: zip cocomo - rozne pliki,

Case 1.5. Analiza klasyfikacji emajli  (Folder categorization).
Opis problemu oraz dane dostarcza bezpośrednio prowadzący.

Case 1.6. Analiza przyczyn  rezygnacji z usług firmy telekomunikacyjnej.
Plik z opisem problemu i uwagami metodycznymi - casestudy16.pdf.
Pelniejszy opis problemu oraz dane dostarcza bezpośrednio prowadzący.

Case 1.7. Analiza danych demograficznych o zamożności mieszkańców pewnego obszaru.
Plik z opisem problemu i uwagami metodycznymi - case17.pdf,
Dalszy opis problemu oraz dane dostarcza bezpośrednio prowadzący.

Case 1.8. Analiza danych finansowych  (problem przygotowany przez dr R.Susmagę).
Plik z opisem problemu i uwagami metodycznymi - Zip z plikami ps
Pliki z danymi: failures - rozne pliki,
UWAGA - nie zaleca sie wyboru tego przypadku od edycji 2009 Interpretacja rozszerzona -> słowna w trakcie konsultacji.

Case 1.9. Analiza danych nt. rozpoznawania pisma - klasyfikacja liter.
Plik z opisem problemu i uwagami metodycznymi - casestudy19.pdf. Dane dostarcza bezpośrednio prowadzący.

Case 1.10. Analiza danych medycznych nt. diagnozowania chorób tarczycy.
Plik z opisem problemu i uwagami metodycznymi - casestudy20.pdf.
Kompletniejszy opis problemu oraz dane dostarcza bezpośrednio prowadzący.

Case 1.11. Klasyfikacja wiadomości tekstowych z grup dyskusyjnych w Internecie.
Plik z opisem problemu i uwagami metodycznymi - casestudy21.pdf.
Kompletniejszy opis problemu oraz dane dostarcza bezpośrednio prowadzący.

Case 1.12. Kategoryzacja emejli do folderów w skrzynce użytkownika.
Plik z opisem problemu i uwagami metodycznymi - casestudy22.pdf.
Kompletniejszy opis problemu oraz dane dostarcza bezpośrednio prowadzący.

 

2. Case study 2:

Celem zajec jest zapoznanie sie z metodami grupowania (analizy skupien, ang. cluster analysis).

Materiały:
Plik z opisem problemu i uwagami metodycznymi - case2.pdf

Pliki z wskazówkami do problemów i źródeł danych:
powiaty 2003, opis źródła danych w załączonym pliku dotyczy zagadnień oceny poziomu ochrony zdrowia, opieki zdrowotnej itp.
warunki zycia w woj. wielkoposkim , Inne spojrzenie na dane charakteryzujące poziom życia w województwie wielkopolskim.
porównania miast wojewodzkich , Ocena miast wojewódzkich po reformie samorządowej.

Pliki z danymi:
wojewodztwa 1,
wojewodztwa 2.

3. Zadanie : dotyczące szeregów czasowych (uwaga: obecna wersja zmodyfikowana styczen 2014)

Celem zajec jest zapoznanie sie z metodami analizy szeregów czasowych

Materiały::
Plik z opisem problemu i uwagami metodycznymi - TimeSeries2013
Pliki z danymi:
czesc 1 "zawiera arkusz z danymi do wiekszosci zadan"
czesc 2 "zawiera arkusz o produkcji napojow w Australii"
czesc 3 dodatkowe pliki z danymi pochodzacymi ze Time Series Data Library (przygotowane przez Rob’a Hyndmana - patrz nizej).

Inne zrodla danych o szeregach czasowych:
1. Time Series Data Library przygotowane przez Rob’a Hyndmana (duża kolekcja ponad 800 zbiorow danych z różnych dziedzin zastosowan http://robjhyndman.com/TSDL/
2. Zestaw danych przygotowany przez Petera Dunna (zawiera także odnośniki do innych repozytoriów publicznie dostępnych danych statystycznych).
3. Ponad 10 różnych danych z Duke University w USA www.stat.duke.edu/~mw/ts_data_sets.html


Strona utworzona: 4.11.2008, ostatnia modyfikacja: 8.01.2014