Na tych zajęciach przedstawione zostaną metody oceny przydatności poszczególnych atrybutów w procesach eksploracji danych. W trakcie laboratorium zapoznajemy się z podstawowymi metodami identyfikacji atrybutów, które są nieprzydatne w zadaniach eksploracji. Będziemy badać zmienność wewnątrz atrybutów, korelację między atrybutami, a także będziemy wybierać zbiory atrybutów charakteryzujące się najbardziej pożądanymi cechami.
Retrieve
operator Multiply
.Remove Correlated Attributes
i usuń wszystkie atrybuty które są skorelowane powyżej progu 0.75. Dodaj do przepływu operator Correlation Matrix
łącząc go z portem wyjściowym ori
operatora Remove Correlated Attributes
. Czy operator jest całkowicie deterministyczny?Remove Useless Attributes
i usuń te atrybuty, w których zmienność wartości jest poniżej 0.1. Uruchom przepływ, a następnie sprawdź czułość metody na zmianę progu zmienności.Weight by Relief
i ustaw liczbę sąsiadów na 10 (pozostaw normalizację wag). Następnie umieść na przepływie operator Select by Weights
i wybierz tylko te atrybuty, których waga jest większa niż 0.5. Uruchom przepływ i sprawdź, w jaki sposób zmiana liczby sąsiadów lub zmiana progu akceptacji wag wpłynie na liczbę wybranych atrybutów. Zamień operator Weight by Relief
na operator Weight by Rule
, uruchom zmodyfikowany przepływ i porównaj uzyskane wyniki.Weight by Chi Squared Statistic
i powiązany z nim operator Select by Weights
. Zmień liczbę przedziałów dyskretyzacji w operatorze Weight by Chi Squared Statistic
na 5 i na 20, porównaj wyniki.Twój ostateczny przepływ powinien wyglądać następująco:
File
i wczytaj zbiór danych Tic-Tac-Toe
. Zapoznaj się z opisem zbioru danych.Rank
. Pozostaw jedynie miarę ReliefF i znajdź 3 najważniejsze pozycje w grze decydujące o wygranej.Twój ostateczny przepływ powinien wyglądać następująco:
opcjonalne