Uczenie się klasyfikatorów z niezrównoważonych oraz zmiennych danych

Tytuł angielski: Learning classifiers from imbalanced and evolving data

Projekt badawczy DEC-2013/11/B/ST6/00963 finansowany przez Narodowe Centrum Nauki
Okres realizacji: od 2014-07-16 do 2017-07-15

Zespół badawczy z Instytutu Informatyki Politechniki Poznańskiej – kierownik Jerzy Stefanowski

Ogólne informacje:

Uczenie maszynowe oraz eksploracja danych rozwijają się szczególnie intensywnie w ostatnich latach. Ich wspólne zadanie obejmuje tworzenie modeli wiedzy uogólniającej zebrane obserwacje w celu poprawy działania systemów w przyszłości. W przypadku uczenia nadzorowanego algorytm uczący na podstawie zbioru wcześniej sklasyfikowanych przykładów tworzy klasyfikator pozwalający przewidywać przypisanie przykładu do klasy na podstawie jego opisu. W niniejszym projekcie zajmowano się dwoma otwartymi problemami w powyższym zakresie, tj. uczeniem klasyfikatorów z niezrównoważonych danych oraz ze zmiennych strumieni danych.

Pierwsza grupa zadań badawczych dotyczyła eksploracji danych o niezrównoważonej liczności klas (z j. ang. class imbalanced data; po polsku nazywanych także danymi niezbalansowanymi), tj. takich, w których jedna z klas – tzw. klasa mniejszościowa – zawiera zdecydowanie mniej przykładów niż pozostałe klasy. W praktyce wymaga się jak najlepszego rozpoznawania przykładów należących do klasy mniejszościowej, lecz niestety typowe algorytmy uczenia są nadmiernie ukierunkowane w stronę przykładów z klas większościowych, dlatego poszukuje się nowych sposobów poprawy klasyfikatorów.

W motywacji do projektu zwrócono uwagę na potrzebę badań nad źródłami trudności w danych niezbalansowanych, tj. dokładniejszej analizy rozkładu przykładów mniejszościowych oraz identyfikacji dodatkowych czynników trudności nieznanych dotychczas w literaturze. Postawiono hipotezę badawczą o potrzebie wprowadzania nowej metody automatycznej identyfikacji typów trudności przykładów z klasy mniejszościowej mniejszościowej i wykorzystaniu tej informacji w propozycjach nowych metod przetwarzania wstępnego danych, algorytmów konstruowania klasyfikatorów oraz zespołów klasyfikatorów (ang. ensembles).

Druga grupa zadań dotyczyła dziedziny eksploracji danych strumieniowych. W przypadku klasyfikatorów, budowanych dla tego rodzaju typu danych, nowe wyzwania obejmują zarówno wymagania wydajnościowe, jak i zdolności adaptacji do zmian w definicji pojęć (klas w źródle danych, które generuje nowe przykłady) oraz innych zmian w rozkładzie przykładów wraz z upływem czasu. Zwrócono uwagę na ograniczenia aktualnych badań w zakresie trzech problemów: potrzeby nowych miar oceny zdolności predykcyjnych klasyfikatorów strumieniowych (zwłaszcza w odniesieniu do bardziej złożonych typów zmian), analizy zróżnicowania budowy zespołów klasyfikatorów, jak i zastosowania takich klasyfikatorów do zmiennych strumieni, gdzie dodatkowo występuje zmienność liczności klas.

Realizowane zadania:

Zad 1. Analiza źródeł trudności związanych z rozkładami klas w niezrównoważonych danych.
Zad 2. Stworzenie specjalizowanych generatorów sztucznych danych.
Zad 3. Badania eksperymentalne oceny wpływu źródeł trudności danych na działanie klasyfikatorów oraz metod wstępnego przetwarzania.
Zad 4. Opracowanie nowych metod ukierunkowanego przetwarzania wstępnego wykorzystujących informacje o lokalnej charakterystyce przykładów uczących.
Zad 5. Opracowanie nowych klasyfikatorów złożonych uczonych z trudnych danych niezrównoważonych oraz analiza wpływu danych sztucznych na budowę i ocenę klasyfikatorów.
Zad 6. Analiza zróżnicowania klasyfikatorów złożonych uczonych z danych niezrównoważonych.
Zad 7. Zaproponowanie nowych miar oceny klasyfikatorów uczonych ze strumieni danych.
Zad 8. Opracowanie nowych klasyfikatorów złożonych uczonych ze zmiennych oraz niezrównoważonych strumieni danych.
Zad 9. Weryfikacja i studia stosowalności wybranych z zaproponowanych metod.

Zespół badawczy:
dr hab. inz. Jerzy Stefanowski, prof. PP – kierownik projektu
dr hab. inż. Szymon Wilk
dr inż. Jerzy Błaszczyński
dr inż. Dariusz Brzeziński
dr inż. Izabela Szczęch
dr inż. Krystyna Napierała
mgr inż. Mateusz Lango

Lista publikacji jako plik pdf

Udostępniane oprogramowanie:
Generator niezbalansowanych danych (aplikacja, źródła i dokumentacja)

Ostatnie zmiany: 23 lipca 2017