Tytuł angielski: Learning classifiers from imbalanced and evolving data
Projekt badawczy DEC-2013/11/B/ST6/00963 finansowany przez
Narodowe Centrum Nauki
Okres realizacji: od 2014-07-16 do 2017-07-15
Zespół badawczy z Instytutu Informatyki Politechniki Poznańskiej – kierownik Jerzy Stefanowski
Uczenie maszynowe oraz eksploracja danych rozwijają się szczególnie intensywnie w ostatnich latach. Ich wspólne zadanie obejmuje tworzenie modeli wiedzy uogólniającej zebrane obserwacje w celu poprawy działania systemów w przyszłości. W przypadku uczenia nadzorowanego algorytm uczący na podstawie zbioru wcześniej sklasyfikowanych przykładów tworzy klasyfikator pozwalający przewidywać przypisanie przykładu do klasy na podstawie jego opisu. W niniejszym projekcie zajmowano się dwoma otwartymi problemami w powyższym zakresie, tj. uczeniem klasyfikatorów z niezrównoważonych danych oraz ze zmiennych strumieni danych.
Pierwsza grupa zadań badawczych dotyczyła eksploracji danych o niezrównoważonej liczności klas (z j. ang. class imbalanced data; po polsku nazywanych także danymi niezbalansowanymi), tj. takich, w których jedna z klas – tzw. klasa mniejszościowa – zawiera zdecydowanie mniej przykładów niż pozostałe klasy. W praktyce wymaga się jak najlepszego rozpoznawania przykładów należących do klasy mniejszościowej, lecz niestety typowe algorytmy uczenia są nadmiernie ukierunkowane w stronę przykładów z klas większościowych, dlatego poszukuje się nowych sposobów poprawy klasyfikatorów.
W motywacji do projektu zwrócono uwagę na potrzebę badań nad źródłami trudności w danych niezbalansowanych, tj. dokładniejszej analizy rozkładu przykładów mniejszościowych oraz identyfikacji dodatkowych czynników trudności nieznanych dotychczas w literaturze. Postawiono hipotezę badawczą o potrzebie wprowadzania nowej metody automatycznej identyfikacji typów trudności przykładów z klasy mniejszościowej mniejszościowej i wykorzystaniu tej informacji w propozycjach nowych metod przetwarzania wstępnego danych, algorytmów konstruowania klasyfikatorów oraz zespołów klasyfikatorów (ang. ensembles).
Druga grupa zadań dotyczyła dziedziny eksploracji danych strumieniowych. W przypadku klasyfikatorów, budowanych dla tego rodzaju typu danych, nowe wyzwania obejmują zarówno wymagania wydajnościowe, jak i zdolności adaptacji do zmian w definicji pojęć (klas w źródle danych, które generuje nowe przykłady) oraz innych zmian w rozkładzie przykładów wraz z upływem czasu. Zwrócono uwagę na ograniczenia aktualnych badań w zakresie trzech problemów: potrzeby nowych miar oceny zdolności predykcyjnych klasyfikatorów strumieniowych (zwłaszcza w odniesieniu do bardziej złożonych typów zmian), analizy zróżnicowania budowy zespołów klasyfikatorów, jak i zastosowania takich klasyfikatorów do zmiennych strumieni, gdzie dodatkowo występuje zmienność liczności klas.
Lista publikacji jako plik pdf
Udostępniane oprogramowanie:Ostatnie zmiany: 23 lipca 2017