W pliku auta.csv zebrano dane na temat samochodów kupowanych na aukcjach przez komisy samochodowe i sprzedawanych końcowym odbiorcom. Atrybutem decyzyjnym jest isBadBuy. Wartość tego atrybuty (binarna) wskazuje, czy zakup danego samochodu przez komis był dobrą inwestycją. Odpowiedni wybór samochodów pozwala uniknąć kosztów związanych z transportem, obsługą reklamacji i naprawami. Opis dostępnych atrybutów znajduje się w pliku auta_opis.txt
Projekt składa się z mniejszych zadań, które można realizować za pomocą dowolnego narzędzia (Weka, Rapid Miner, Orange Data Mining, Oracle Data Mining Library). Oprócz przepływu/skryptów w jednym z wymienionych narzędzi, efektem projektu powinno być sprawozdanie. Sprawozdanie musi zawierać zwięzły opis wykonanych czynności oraz dokładne odpowiedzi na wszystkie pytania umieszczone pod każdym zadaniem (sekcja wypunktowana). Opcjonalnie, do sprawozdania można dołączyć zrzuty ekranów z przeprowadzonych czynności.
Poniżej znajduje się lista zadań szczegółowych. Możesz wykonać wybraną część zadań, w zależności od tego jaką chcesz uzyskać ocenę z projektu. Ocena jest wystawiana na postawie sumarycznej liczby zdobytych punktów za rozwiązania zadań szczegółowych:
Punkty | Ocena |
---|---|
<0-6.0) | 2.0 |
<6.0-7.2) | 3.0 |
<7.2-8.4) | 3.5 |
<8.4-9.6) | 4.0 |
<9.6-10.8) | 4.5 |
<10.8-12> | 5.0 |
Obejrzyj histogramy dla wszystkich atrybutów, na podstawie wartości średniej i zakresu wartości oceń, dla których atrybutów należy zidentyfikować osobliwości. Przeprowadź usuwanie wartości odstających.
W zbiorze danych brakujące dane są oznaczone przez NULL. Znajdź atrybuty zawierające brakujące dane. Zastąp brakujące wartości.
Wybierz atrybuty liczbowe, które powinny być Twoim zdaniem znormalizowane. Przeprowadź normalizację atrybutów liczbowych.
Wybierz atrybuty liczbowe, które powinny Twoim zdaniem podlegać dyskretyzacji. Dla każdego atrybutu wybierz najwłaściwszą Twoim zdaniem metodę dyskretyzacji i przedziały dyskretyzacji.
Określ ważność atrybutów względem atrybutu decyzyjnego.
Zbuduj naiwny klasyfikator Bayesa służący do przewidywania wartości atrybutu decyzyjnego na podstawie wartości pozostałych atrybutów. Wybierz atrybuty, które powinny być włączone do modelu. Jako preferowaną wartość (positive) wybierz „1”. Zwróć uwagę, żeby przede wszystkim poprawnie przewidywać preferowaną wartość kosztem ogólnej dokładności modelu
Spróbuj wybrać inną metodę klasyfikacji niż w punkcie 6 aby uzyskać lepsze wyniki (zastosuj tę samą metodę oceny klasyfikatora).
Powiązania między producentem, rokiem produkcji, wersją wyposażenia, kolorem i rodzajem felg (atrybuty MAKE, VEHYEAR, TRIM, COLOR, WHEELTYPE) można przedstawić w postaci reguł asocjacyjnych. Stwórz model reprezentujący powiązania między tymi danymi.
Pogrupuj dane wybranym algorytmem, ale nie korzystaj z atrybutu decyzyjnego.