Uczenie maszynowe w R

Dariusz Brzeziński

Część III: Grupowanie

Agenda

Analiza skupień
Algorytmy
- k-means, k-medoids
- AHC
- DBSCAN
Miary podobieństwa
Miary oceny

Grupowanie

Celem algorytmów analizy skupień (grupowania) jest połączenie w grupy obiektów podobnych do siebie i oddzielenie obiektów, które się od siebie różnią.

Definicja miary podobieństwa między obiektami jest kluczowa dla każdego algorytmu grupowania. To co rozumiane jest jako grupa, też bywa różnie definiowane. Wynika to z faktu, że grupowanie jest “źle zdefiniowanym problemem”.

Grupowanie - algorytmy

Podstawowe typy algorytmów:

Iteracyjne (k-means, k-medoids)
Hierarchiczne (AHC)
Gęstościowe (DBSCAN, OPTICS)
Komunikacyjne (affinity propagation)
Oparte o rozkłady (EM)

Grupowanie - algorytmy

Algprytmy grupowania

Grupowanie a język R

Algorytmy analizy skupień pozostają rozproszone po różnych paczkach w R.

Pokażemy tylko kilka podstawowych zagadnień z grupowania. Przykłady będą wykonywane na zbiorze Iris.

library(factoextra)
library(fpc)
library(NbClust)

set.seed(23)
df <- iris[, -5] # usuwamy kolumnę Species
df <- scale(df)

Algorytm k-średnich

Ustalamy liczbę skupień k
Losujemy k punktów (wstępnych środków skupień)
Obliczamy odległości obiektów od środków skupień
Przypisujemy obiekty do najbliższych skupień
Wyliczamy nowe środki skupień
Wykonujemy kroki 3,4,5 do czasu, aż:
- środki skupień przestaną się zmieniać
- wykonamy maksymalną liczbę iteracji

Algorytm k-średnich

km.res <- eclust(df, "kmeans", k = 3, nstart = 25, graph = F)
fviz_cluster(km.res, palette = "jco", ggtheme = theme_minimal())

plot of chunk unnamed-chunk-3

Jak określić liczbę skupień?

Sprawdzamy sumę sum kwadratów (wss) odległości od centroidu dla wszystkich skupień przy rosnącym k. Następnie analizujemy wykres zależności wws od k (elbow plot). Alternatywnie wykorzystujemy miarę gap statistic, lub rysujemy silhouette plot.

wss <- (nrow(df)-1)*sum(apply(df,2,var))
for (i in 2:15) 
  wss[i] <- sum(kmeans(df,
                centers=i)$withinss)
wssDf = data.frame(n=1:15, wss=wss)

Elbow plot

ggplot(wssDf, aes(n, wss)) + geom_point() + 
    geom_line() + theme_minimal()

plot of chunk unnamed-chunk-5

Silhouette plot (k=2)

km.res <- eclust(df, "kmeans", k = 2, nstart = 25, graph = F)
fviz_silhouette(km.res, palette = "jco", ggtheme = theme_classic(), print.summary = F)

plot of chunk unnamed-chunk-6

Silhouette plot (k=3)

km.res <- eclust(df, "kmeans", k = 3, nstart = 25, graph = F)
fviz_silhouette(km.res, palette = "jco", ggtheme = theme_classic(), print.summary = F)

plot of chunk unnamed-chunk-7

Silhouette plot (k=4)

km.res <- eclust(df, "kmeans", k = 4, nstart = 25, graph = F)
fviz_silhouette(km.res, palette = "jco", ggtheme = theme_classic(), print.summary = F)

plot of chunk unnamed-chunk-8

Uwaga!

Dla k-średnich jak i innych algorytmów grupowania kluczowe jest określenie miary odległości między przykładami. Typowe miary to:

miara euklidesowa
miara manhattańska
inne miary Minkowskiego
odległość Jaccarda
odległość Mahalonobisa
miary mieszane

Algorytm k-medoidów

Algorytm jest bardzo podobny do k-średnich, z tą różnicą, że po każdej iteracji wyliczany jest nie centroid tylko medoid. Medoid jest to przykład, który znajduje się najbliżej centrum skupień.

Ponieważ jest to konkretny przykład a nie punkt w przestrzeni, medoid może być traktowany jako konkretny reprezentant skupienia ze zbioru danych.

Popularne wersje: PAM i CLARA

Algorytm k-medoidów

pam.res <- eclust(df, "pam", k = 3, graph = F)
fviz_cluster(pam.res, palette = "jco", ggtheme = theme_minimal())

plot of chunk unnamed-chunk-9

Algorytm AHC

AHC = Agglomerative Hierarchical Clustering

Ustal każdy przykład jako osobne skupienie
Oblicz macierz odległości między skupieniami
W macierzy odległości znajdź parę najbliższych skupień
Połącz znalezioną parę w jedno skupienie
Powtórz kroki 2-4 dopóki nie powstanie jedno skupienie

Algorytm AHC - dendrogram

hc.res <- eclust(df, "hclust", k = 3, hc_metric = "euclidean", hc_method = "ward.D2", graph = F)
fviz_dend(hc.res, show_labels = F, palette = "jco", as.ggplot = T)

plot of chunk unnamed-chunk-10

Algorytm AHC - łączenie skupień

Single-link: odległość między najbliższymi elementami w skupieniach
Complete-link: odległość między najdalszymi elementami w skupieniach
Average-link: średnia odległości wszystkich par między skupieniami
Centroid: odległość między centroidami
Ward: połączenie, które minimalizuje wss

Algorytm DBSCAN

Density-Based Spatial Clustering and Application with Noise

Dla przykładu x_i oblicz jego odległość od innych przykładów
Znajdź wszystkich sąsiadów x_i w odległości eps.
Każdy punkt z liczbą sąsiadów większą niż MinPts jest oznaczany jako rdzenny, reszta jako odwiedzone.
Dla każdego rdzennego punktu, jeśli nie jest przypisany do żadnego skupienia, stwórz nowe skupienie. Przypisz gęstościowo połączone punkty do tego samego skupienia.
Przejdź do kolejnego nieodwiedzonego przykładu x_i (1)
Przykłady nieprzypisane do skupień to wartości odstające

Algorytm DBSCAN

data("multishapes"); ms <- multishapes[, 1:2]
db.res <- fpc::dbscan(ms, eps=0.15, MinPts=5)
fviz_cluster(db.res, ms, stand=F, ellipse=F, show.clust.cent=F, geom="point", palette="jco", ggtheme= theme_classic())

plot of chunk unnamed-chunk-11

Porównanie z k-średnich

plot of chunk unnamed-chunk-12

Badanie jakości grupowania

Jak znamy poprawne etykiety to mamy do dyspozycji macierz pomyłek i możemy wykorzystać miary znane z klasyfikacji

kc <- kmeans(df, 3)
table(iris$Species, kc$cluster)


              1  2  3
  setosa      0 33 17
  versicolor 46  0  4
  virginica  50  0  0

Polecanymi miarami przy znajomości etykiet są Adjuested Mutual Information (AMI) i Adjusted Rand Index (ARI).

Badanie jakości grupowania

Jeśli nie znamy poprawnych etykiet dla danych uczących to typowymi miarami oceny są:

Silhouette coefficient: ocena przynależności punktu do skupienia w którym jest (intracluster-similarity) oraz odległości od punktów innych skupień (intercluster dissimilarity); średnia z silhouette dla wszystkich punktów daje ocenę całego grupowania
Dunn index: podobna miara, przy czym skupia się na ocenie spójności (diameter) i odległości (separation) całych grup; Dunn = min(separation) / max(diameter)

Zadanie z grupowania

Stwórz zbiór danych w następujący sposób:

library(fpc)

set.seed(23)
face <- rFace(1000, p=2, dMoNo=3)
df = data.frame(x=face[,1], y=face[,2])
labels = as.integer(attr(face,"grouping"))

df to dane do pogrupowania, labels poprawne etykiety

Zadanie z grupowania

Przetestuj różne algorytmy grupowania
Dla każdego algorytmu określ jakość skupień:
- za pomocą miary liczbowej
- tworząc macierz pomyłek
- wizualizując dane

ggplot(df, aes(x, y, color=factor(predicted))) + 
    geom_point() + 
    theme_bw()

Przydatne zasoby

http://www.sthda.com/english/articles/29-cluster-validation-essentials/97-cluster-validation-statistics-must-know-methods/
http://www.sthda.com/english/articles/30-advanced-clustering/105-dbscan-density-based-clustering-essentials/
http://www.statmethods.net/advstats/cluster.html
http://wiki.math.yorku.ca/index.php/R:_Cluster_analysis