Uczenie maszynowe i sieci neuronowe – laboratorium

dr inż. Maciej Komosiński


Ćwiczenie
Generowanie reguł decyzyjnych algorytmami C4.5 i LEM2
Cel Ilustracja różnych aspektów generowania reguł decyzyjnych i ich weryfikowania
Zagadnienia
drzewa decyzyjne – zamiana na reguły, reguły decyzyjne, zbiór reguł, lista reguł, parametry opisujące reguły, algorytm LEM2, klasyfikowanie regułami
Narzędzia
C4.5, lem.exe (z CASTOR\WWD_ML\LEM.ZIP, lub z pakietu ROSE)
Zbiory danych
GOLF, HPAP, VOTE, MONK1..3

Przebieg laboratorium:

Zadanie 1: Metoda pośrednia generowania reguł (C4.5rules)

a) wygenerować reguły dla zbioru GOLF za pomocą programu C4.5 for Windows (Uwaga! Opcja generowania reguł uaktywnia się dopiero wówczas, gdy wygenerowane jest jakieś drzewo)

b) porównaj wygenerowane reguły z wyjściowym drzewem decyzyjnym. Czy reguły odzwierciedlają precyzyjnie drzewo (tj. wszystkie ścieżki od korzenia do liści) ?

Zadanie 2: Porównanie klasyfikowania za pomocą drzew decyzyjnych i reguł decyzyjnych (C4.5rules)

a) przeprowadzić testy 10-fold CV na wybranych zbiorach dla drzew i reguł (w opcji CrossValidation/Test, trzeba zaznaczyć pole „Trees and rules”)

b) porównać wyniki pod kątem:

Zaprezentuj wyniki graficznie.

c) przeprowadzając kilka eksperymentów uczenia i testowania (raczej bez cross validation) przeanalizuj wpływ parametrów Confidence Level i Redundancy Factor na otrzymywany zbiór reguł (tu trzeba sobie przypomnieć z zajęć, jaka jest interpretacja tych współczynników, na co wpływają). Pożądana prezentacja graficzna.

Zadanie 3: Generowanie reguł z użyciem algorytmu LEM

a) [POMINĄĆ W SPRAWOZDANIU] Przypomnij sobie pojęcia: definicja reguły (lokalnie minimalne wyrażenie dyskryminujące), idea górnego i dolnego przybliżenia, wybór selektorów – uwaga na konflikty, minimalizacja (liniowa) kompleksu, minimalizacja (liniowa) zbioru reguł, reguły pewne i możliwe

b) [POMINĄĆ W SPRAWOZDANIU] Przykład tablicowy: generowanie zbioru reguł dla przykładu z pracy Grzymały-Bussego (HPAP.ISF)

c) wygeneruj reguły dla zbiór HPAP.ISF (wywołanie: lem.exe lem.cfg; lem.cfg to plik tekstowy, w którym definiuje się m.in. plik wejściowy (zbiór przykładów) i plik wyjściowy (zbiór reguł)).

d) przyjrzyj się regułom możliwym; opisz je i „wydedukuj”, skąd się wzięły.

Zadanie 4: Porównanie reguł generowanych za pomocą algorytmu LEM i C4.5

a) wygeneruj reguły przy użyciu obu podejść dla zbiorów: HPAP, VOTE i (opcja) jeden ze zbiorów MONK (konieczne „ręczne” przekonwertowanie zbioru do/z formatu C4.5, ale to nie jest trudne; oba formaty są zbliżone: plik *.isf to prawie to samo co „sklejony” *.nam i *.dat).

b) przyjrzyj się niezależnie regułom pewnym i możliwym (LEM).

c) przeprowadź analizę porównawczą otrzymanych klasyfikatorów pod kątem podobieństw i różnic (ta analiza nie musi być kompletna, bo wygenerowanych reguł może być wiele; proszę skupić się na kilku co bardziej interesujących aspektach/regułach). Byłoby też pożądane zastanowić się nad różnicami dotyczącymi użycia obu klasyfikatorów (lista a zbiór reguł).

Zadanie 5: [OPCJA; wymaga użycia lem.exe] Przeprowadź eksperyment generowania i testowania reguł LEM w ramach cross validation.

Zadanie 6: Zapoznaj się z programem cn2\WinCn2.exe.