Celem laboratorium jest zapoznanie studentów z podstawowymi metodami indukcji drzew decyzyjnych. W trakcie laboratorium studenci wykonują ćwiczenia z użyciem Rapid Minera.

dt-obama-clinton.jpg

Rapid Miner

  • Uruchom narzędzie RapidMiner 6.5
  • Utwórz prosty przepływ polegający na wczytaniu zbioru danych Golf i uruchomieniu operatora Decision Stump. Obejrzyj uzyskany model. Sprawdź, w jaki sposób zmiana kryterium podziału zbioru wpływa na kształt modelu. Zamień operator Decision Stump na operator Decision Tree i ponownie zbuduj oraz przeanalizuj model. Następnie wyłącz pre- i post-processing i sprawdź, jaki wpływ miało to na kształt modelu
  • Dodaj do przepływu dyskretyzację atrybutów (operator Discretize, podział na 3 przedziały), oraz zmień operator Decision Tree na kolejno: CHAID, ID3, oraz Decision Tree (weight-based). W ostatnim przypadku jako operator wewnętrzny do ważenia atrybutów wykorzystaj operator Weight by Correlation.
  • Utwórz nowy przepływ zawierający operatory Read CSV (wczytaj plik mushroom.csv), Set Role (wskaż atrybut class jako typu label), Replace Missing Values (pozostaw domyślne parametry), oraz uruchom proces walidacji krzyżowej wykorzystując operator X-Validate. Jako operatory wewnętrzne walidacji zastosuj najpierw Decision Tree, a potem Random Forest. Zaobserwuj zmiany w generowanych modelach, zwróć uwagę, jaki wpływ na model losowy ma zwiększenie puli dostępnych atrybutów.

Zadanie samodzielne

  • Pobierz zbiór danych flags.tab i zapoznaj się z jego opisem
  • Użyj operatora Select Attributes do wskazania, który atrybut jest zmienną celu.
  • Postaraj się zbudować jak najlepszy klasyfikator który umożliwia przewidywanie dominującej religii w państwie na podstawie cech charakterystycznych flagi tego państwa.

Manuskrypty i księgi

manuscript