s

W pliku auta.csv zebrano dane na temat samochodów kupowanych na aukcjach przez komisy samochodowe i sprzedawanych końcowym odbiorcom. Atrybutem decyzyjnym jest isBadBuy. Wartość tego atrybuty (binarna) wskazuje, czy zakup danego samochodu przez komis był dobrą inwestycją. Odpowiedni wybór samochodów pozwala uniknąć kosztów związanych z transportem, obsługą reklamacji i naprawami. Opis dostępnych atrybutów znajduje się w pliku auta_opis.txt

Projekt składa się z mniejszych zadań, które można realizować za pomocą dowolnego narzędzia (Weka, Rapid Miner, Orange Data Mining, Oracle Data Mining Library). Oprócz przepływu/skryptów w jednym z wymienionych narzędzi, efektem projektu powinno być sprawozdanie. Sprawozdanie musi zawierać zwięzły opis wykonanych czynności oraz dokładne odpowiedzi na wszystkie pytania umieszczone pod każdym zadaniem (sekcja wypunktowana). Opcjonalnie, do sprawozdania można dołączyć zrzuty ekranów z przeprowadzonych czynności.

Poniżej znajduje się lista zadań szczegółowych. Możesz wykonać wybraną część zadań, w zależności od tego jaką chcesz uzyskać ocenę z projektu. Ocena jest wystawiana na postawie sumarycznej liczby zdobytych punktów za rozwiązania zadań szczegółowych:

PunktyOcena
<0-6.0)2.0
<6.0-7.2)3.0
<7.2-8.4)3.5
<8.4-9.6)4.0
<9.6-10.8)4.5
<10.8-12>5.0

Deadline

Termin nadsyłania prac upływa 19.06.2016 (niedziela) o północy. Projekty proszę przesyłać na adres mailowy prowadzącego. Sprawozdanie powinno być zawarte w pliku PDF o nazwie zgodnej ze schematem tpd_ed_nazwisko.pdf

Zadania szczegółowe

1. Wartości odstające (1 pkt.)

Obejrzyj histogramy dla wszystkich atrybutów, na podstawie wartości średniej i zakresu wartości oceń, dla których atrybutów należy zidentyfikować osobliwości. Przeprowadź usuwanie wartości odstających.

  • Które atrybuty wybrałeś do usuwania wartości odstających?
  • Jaką metodę (sposób, nie musi to być operator związany z danym narzędziem) oznaczania osobliwości wybrałeś dla każdego atrybutu? Dlaczego?
2. Brakujące wartości (1 pkt.)

W zbiorze danych brakujące dane są oznaczone przez NULL. Znajdź atrybuty zawierające brakujące dane. Zastąp brakujące wartości.

  • Które atrybuty zawierają brakujące wartości?
  • Jaką metodę eliminacji pustych wartości wybrałeś dla każdego z atrybutów? Dlaczego
3. Normalizacja (1 pkt.)

Wybierz atrybuty liczbowe, które powinny być Twoim zdaniem znormalizowane. Przeprowadź normalizację atrybutów liczbowych.

  • Które atrybuty wybrałeś do normalizacji?
  • Jaką metodą znormalizowałeś każdy z atrybutów? Dlaczego?
4. Dyskretyzacja (1 pkt.)

Wybierz atrybuty liczbowe, które powinny Twoim zdaniem podlegać dyskretyzacji. Dla każdego atrybutu wybierz najwłaściwszą Twoim zdaniem metodę dyskretyzacji i przedziały dyskretyzacji.

  • Które atrybuty numeryczne wybrałeś do dyskretyzacji?
  • Jaką metodę, liczbę przedziałów i granice przedziałów wybrałeś dla każdego atrybutu? Uzasadnij swój wybór.
5. Ważność atrybutów (1 pkt.)

Określ ważność atrybutów względem atrybutu decyzyjnego.

  • Podaj trzy najbardziej przydatne atrybuty do przewidywania wartości atrybutu decyzyjnego. Spróbuj wytłumaczyć uzyskany wynik.
  • Podaj trzy najmniej przydatne atrybuty do przewidywania wartości atrybutu decyzyjnego. Spróbuj wytłumaczyć uzyskany wynik.
6. Klasyfikacja 1 (2 pkt.)

Zbuduj naiwny klasyfikator Bayesa służący do przewidywania wartości atrybutu decyzyjnego na podstawie wartości pozostałych atrybutów. Wybierz atrybuty, które powinny być włączone do modelu. Jako preferowaną wartość (positive) wybierz „1”. Zwróć uwagę, żeby przede wszystkim poprawnie przewidywać preferowaną wartość kosztem ogólnej dokładności modelu

  • Które atrybuty weszły w skład modelu?
  • Jak wygląda najlepsza znaleziona przez Ciebie macierz kosztów?
  • Jak wyglądała macierz pomyłek?
  • Jaką metodę wybrałeś do oceny klasyfikatora?
7. Klasyfikacja 2 (2 pkt.)

Spróbuj wybrać inną metodę klasyfikacji niż w punkcie 6 aby uzyskać lepsze wyniki (zastosuj tę samą metodę oceny klasyfikatora).

  • Jaką metodę wybrałeś?
  • Jak wyglądała macierz pomyłek?
8. Reguły asocjacyjne (1 pkt.)

Powiązania między producentem, rokiem produkcji, wersją wyposażenia, kolorem i rodzajem felg (atrybuty MAKE, VEHYEAR, TRIM, COLOR, WHEELTYPE) można przedstawić w postaci reguł asocjacyjnych. Stwórz model reprezentujący powiązania między tymi danymi.

  • Podaj 5 odkrytych reguł o najwyższym wsparciu i ufności.
9. Grupowanie (2 pkt.)

Pogrupuj dane wybranym algorytmem, ale nie korzystaj z atrybutu decyzyjnego.

  • Jakie atrybuty wybrałeś do grupowania?
  • Ile grup otrzymałeś? Jak określiłeś liczbę oczekiwanych grup?
  • Spróbuj scharakteryzować uzyskane skupienia.