Na tych zajęciach przedstawione zostaną metody oceny przydatności poszczególnych atrybutów w procesach eksploracji danych. W trakcie laboratorium zapoznajemy się z podstawowymi metodami identyfikacji atrybutów, które są nieprzydatne w zadaniach eksploracji. Będziemy badać zmienność wewnątrz atrybutów, korelację między atrybutami, a także będziemy wybierać zbiory atrybutów charakteryzujące się najbardziej pożądanymi cechami.

Rapid Miner

  • Uruchom narzędzie RapidMiner 6.5
  • Utwórz nowy przepływ i załaduj przykładowy zbiór danych Sonar. Zapoznaj się z charakterystyką zbioru danych.
  • Dodaj za operatorem Retrieve operator Multiply.
  • Utwórz przepływ usuwający silnie skorelowane atrybuty. W tym celu dodaj operator Remove Correlated Attributes i usuń wszystkie atrybuty które są skorelowane powyżej progu 0.75. Dodaj do przepływu operator Correlation Matrix łącząc go z portem wyjściowym ori operatora Remove Correlated Attributes. Czy operator jest całkowicie deterministyczny?
  • Utwórz przepływ usuwający atrybuty o małej zmienności. Dodaj operator Remove Useless Attributes i usuń te atrybuty, w których zmienność wartości jest poniżej 0.1. Uruchom przepływ, a następnie sprawdź czułość metody na zmianę progu zmienności.
  • Utwórz przepływ dokonujący ważenia atrybutów na podstawie miary Relief. W tym celu dodaj operator Weight by Relief i ustaw liczbę sąsiadów na 10 (pozostaw normalizację wag). Następnie umieść na przepływie operator Select by Weights i wybierz tylko te atrybuty, których waga jest większa niż 0.5. Uruchom przepływ i sprawdź, w jaki sposób zmiana liczby sąsiadów lub zmiana progu akceptacji wag wpłynie na liczbę wybranych atrybutów. Zamień operator Weight by Relief na operator Weight by Rule, uruchom zmodyfikowany przepływ i porównaj uzyskane wyniki.
  • Utwórz przepływ dokonujący ważenia atrybutów na podstawie statystyki Chi-kwadrat. Przypomnij sobie, co wyznacza test Chi-kwadrat. Dodaj operator Weight by Chi Squared Statistic i powiązany z nim operator Select by Weights. Zmień liczbę przedziałów dyskretyzacji w operatorze Weight by Chi Squared Statistic na 5 i na 20, porównaj wyniki.

Twój ostateczny przepływ powinien wyglądać następująco:

weighting.png

Orange Data Mining

  • Utwórz nowy przepływ, umieść na nim operator File i wczytaj zbiór danych Tic-Tac-Toe. Zapoznaj się z opisem zbioru danych.
  • Prześlij dane do operatora Rank. Pozostaw jedynie miarę ReliefF i znajdź 3 najważniejsze pozycje w grze decydujące o wygranej.
  • Sprawdź, czy zmiana liczby najbliższych sąsiadów, względem których liczona jest miara ReliefF wpływa na wynik.

Twój ostateczny przepływ powinien wyglądać następująco:

orange.attribute.selection.png

Weka

  • Uruchom narzędzie Weka Explorer
  • Wczytaj zbiór danych spambase_real.arff
  • Zastosuj filtr który zamieni ostatni atrybut (zmienną celu) na zmienną kategoryczną.
  • Przejdź do zakładki Select Attributes. Następnie porównaj wyniki dwóch metod:
    • ocena CfsSubsetEval z metodą przeszukiwania przestrzeni rozwiązań BestFirst
    • ocena ReliefAttributeEval z metodą przeszukiwania przestrzeni rozwiązań Ranker

Manuskrypty i księgi

manuscript

opcjonalne