dr inż. Maciej Komosiński
Ćwiczenie |
Generowanie reguł decyzyjnych algorytmami C4.5 i LEM2 |
Cel | Ilustracja różnych aspektów generowania reguł decyzyjnych i ich weryfikowania |
Zagadnienia |
drzewa decyzyjne
– zamiana na reguły, reguły decyzyjne, zbiór reguł, lista reguł, parametry
opisujące reguły, algorytm LEM2, klasyfikowanie regułami |
Narzędzia |
C4.5, lem.exe (z CASTOR\WWD_ML\LEM.ZIP, lub z pakietu ROSE) |
Zbiory danych |
GOLF,
HPAP, VOTE, MONK1..3 |
a) wygenerować reguły dla zbioru GOLF za pomocą programu C4.5 for Windows (Uwaga! Opcja generowania reguł uaktywnia się dopiero wówczas, gdy wygenerowane jest jakieś drzewo)
b) porównaj wygenerowane reguły z wyjściowym drzewem decyzyjnym. Czy reguły odzwierciedlają precyzyjnie drzewo (tj. wszystkie ścieżki od korzenia do liści) ?
a) przeprowadzić testy 10-fold CV na wybranych zbiorach dla drzew i reguł (w opcji CrossValidation/Test, trzeba zaznaczyć pole „Trees and rules”)
b) porównać wyniki pod kątem:
Zaprezentuj wyniki graficznie.
c) przeprowadzając kilka eksperymentów uczenia i testowania (raczej bez cross validation) przeanalizuj wpływ parametrów Confidence Level i Redundancy Factor na otrzymywany zbiór reguł (tu trzeba sobie przypomnieć z zajęć, jaka jest interpretacja tych współczynników, na co wpływają). Pożądana prezentacja graficzna.
a) [POMINĄĆ W SPRAWOZDANIU] Przypomnij sobie pojęcia: definicja reguły (lokalnie minimalne wyrażenie dyskryminujące), idea górnego i dolnego przybliżenia, wybór selektorów – uwaga na konflikty, minimalizacja (liniowa) kompleksu, minimalizacja (liniowa) zbioru reguł, reguły pewne i możliwe
b) [POMINĄĆ W SPRAWOZDANIU] Przykład tablicowy: generowanie zbioru reguł dla przykładu z pracy Grzymały-Bussego (HPAP.ISF)
c) wygeneruj reguły dla zbiór HPAP.ISF (wywołanie: lem.exe lem.cfg; lem.cfg to plik tekstowy, w którym definiuje się m.in. plik wejściowy (zbiór przykładów) i plik wyjściowy (zbiór reguł)).
d) przyjrzyj się regułom możliwym; opisz je i „wydedukuj”, skąd się wzięły.
a) wygeneruj reguły przy użyciu obu podejść dla zbiorów: HPAP, VOTE i (opcja) jeden ze zbiorów MONK (konieczne „ręczne” przekonwertowanie zbioru do/z formatu C4.5, ale to nie jest trudne; oba formaty są zbliżone: plik *.isf to prawie to samo co „sklejony” *.nam i *.dat).
b) przyjrzyj się niezależnie regułom pewnym i możliwym (LEM).
c) przeprowadź analizę porównawczą otrzymanych klasyfikatorów pod kątem podobieństw i różnic (ta analiza nie musi być kompletna, bo wygenerowanych reguł może być wiele; proszę skupić się na kilku co bardziej interesujących aspektach/regułach). Byłoby też pożądane zastanowić się nad różnicami dotyczącymi użycia obu klasyfikatorów (lista a zbiór reguł).