reading club - similarity cluster analysis - the basics sebastian matyas 04. juni 2008
DESCRIPTION
Lehrstuhl für Angewandte Informatik in den Kultur-, Geschichts- und Geowissenschaften. Otto-Friedrich-Universität Bamberg. Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008. - PowerPoint PPT PresentationTRANSCRIPT
Reading Club - Similarity
Cluster Analysis - the Basics
Sebastian Matyas
04. Juni 2008
Lehrstuhl für Angewandte Informatik in denKultur-, Geschichts- und Geowissenschaften
Otto-Friedrich-Universität Bamberg
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-2Reading Club - Similarity
Angela Schwering (2008). Approaches to Semantic Similarity Measurement for Geo-Spatial Data: A Survey, Transactions in GIS Vol. 12 Issue 1 Page 5 February 2008
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-3Reading Club - Similarity
Teil 1Similarity: Geometrisches Modell
Teil 2Verfahren zur Clusteranalysen
Teil 3Kritische Schlussbemerkungen
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-4
Allgemeine Eigenschaften
Koordinatensystem Objekte (Instanzen) als
Punkte in einem n-dimensionalen Raum (Koordinatensystem)
Ähnlichkeit definiert als nicht-negative Zahl einer metrischen Distanzfunktion (a,b)
Axiome Minimality
(a,b) ≥ (a,a) = 0
Symmetry
(a,b) = (b,a)
Triangle inequality
(a,b) + (b,c) ≥ (a,c)
Reading Club - Similarity
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-5
Distanzmaße
Metrische Merkmale Minkowski-Metrik:
Euklidischer Abstand (r = 2) City Block-Distanz/
Manhattan-Distanz (r=1)
(intervall- und verhältnisskalierte Merkmale)
Nicht-metrische Merkmale Variablen werden in binäre
Form transformiert Z.B. ordinalskalierte
Variablen: Werte unterhalb des Medians die 0 und oberhalb 1
(nominale und ordinale Merkmale)
Reading Club - Similarity
rm
l
r
jlilrij xxd
1
1)(
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-6
Nicht-Metrische Merkmale
Distanzmaß Konstanten Tanimoto: = 0, = 1 Dice: = 0, = 1/2 Simple Matching (M): = 1, = 1
Russel-Rao (RR)
Usw.
Reading Club - Similarity
)( cbda
daSij
cbda
aSij
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-7Reading Club - Similarity
Teil 1Similarity: Geometrisches Modell
Teil 2Verfahren zur Clusteranalysen
Teil 3Kritische Schlussbemerkungen
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-8
Partitionierende Clusteranalysen
Allgemein Feste Zielgröße von k
Cluster Optimierungskriterium, so
dass möglichst gute Partition der n Objekte in die k Cluster erfolgt
Zufällige Anfangsverteilung der n Objekte zu den k Clustern
Iterative Verfahren Clusterzugehörigkeit
revidierbar
Optimierungskriterium Global Partiell
Reading Club - Similarity
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-9
Iterativ-globale Verfahren
Allgemein 1.) Anfangspartition mit k
Cluster (Initiierungsphase) 2.) Prüfe, ob sich durch
verschieben jedes einzelnen Objektes die Zielfunktion verbessert. Berechne Centroide neu. (Iterationsphase)
3.) Wiederhole Schritt zwei so lange bis sich keine Verbesserung der Zielfunktion mehr ergibt (Iterationsphase)
Initiierungsphase Zuordnung nach
Eingabereihenfolge Erste k oder zufällige
Stichprobe an Objekten als Startzentren; Zuordnung anschließend nach euklidischer Distanz
Ergebnis einer Clusteranalyse als Startpunkt für eine Zweite
Usw.
Reading Club - Similarity
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-10
Globale Optimierungskriterien
Totale Streuungsmatrix T (totale Dispersionsmatrix) Varianz der m Variablen,
bzw. die Kovarianz zwischen je zwei Variablen der n Objekte
T ist vom Typ m x m
Innerhalb eines Clusters:
Zwischen Cluster:
T = W + B
Reading Club - Similarity
Tii
n
i
ii xxxxT )()(1
Tri
n
i
ri
k
r
xxxxWr
)()(11
Tr
k
irr xxxxnB )()(
1
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-11
Skalarbildende Transformation
Spur W z(P) = Spur(W) Minimum Summer der
Diagonalelemente der Matrix W für eine Partition P
Spur T = Spur W + Spur B Varianzkriterium, Spur W-
Kriterium, Abstabds-quadratkriterium
Determinante W z(P) = Det(W) Minimum Maß der Heterogenität der
einzelnen Cluster Skaleninvariant Berücksichtigt
Variablenkorrelation
Reading Club - Similarity
k
r
n
i
ri
r
xxSpurW1 1
2)(
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-12Reading Club - Similarity
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-13
Iterativ-partielle Verfahren
Allgemein 1.) Anfangspartition 2.) Berechne Clusterzentren 3.) Verschiebe jedes Objekt
in ein Cluster mit minimaler Entfernung (Distanz)
4.) Fahre bei Schritt zwei fort oder Beende nach einem Abbruchkriterium
Clusterzentren berechnen Abhängig vom verwendeten
Distanzmaß Quadrierte euklidische
Distanz = Clustercentroid City-Block-Metrik = Vektor
der Mediane der Meßwerteverteilung auf den m Merkmalen
Reading Club - Similarity
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-14
Neuberechnung der Schwerpunkte
Varianten Alle Objekte dem nächsten
Cluster zugewiesen (voller Iterationszyklus)
Bei jeder Zuweisung eines Objekts zum nächsten Cluster
K-means Algorithmus Berechnung der Centroide
nach jeder Neuzuweisung Ausreißer und Objekte
zwischen zwei benachbarten Clustern problematisch
Variante (MacQueen, 1967) mit Parameter C („coarsening“) und R („refinment“)
Reading Club - Similarity
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-15
Ashbrook/Starner - k-means
Reading Club - Similarity
Ashbrook, D. and Starner, T. 2003. Using GPS to learn significant locations and predict movement across multiple users. Personal Ubiquitous Comput. 7, 5 (Oct. 2003), 275-286.
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-16
K-mediods Algorithmus
Allgemein Clusterzentren sind jetzt
nicht mehr „künstliche“ Centroide sondern echte Objekte in der untersuchenden Datenmenge
Medoid: Objekt mit dem geringsten Abstand zu allen anderen Objekten in einem Cluster
Z.B. Partitioning Around Medoids (PAM)
1.) Anfangspartition 2.) Berechne Medoide 3.) Verschiebe jedes Objekt
in ein Cluster mit minimaler Entfernung (Distanz)
4.) Fahre bei Schritt zwei fort oder Beende anhand eines Abbruchkriteriums
Reading Club - Similarity
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-17
Beispiel
Reading Club - Similarity
Tung, A. K., Hou, J., and Han, J. 2001. Spatial Clustering in the Presence of Obstacles. In Proceedings of the 17th international Conference on Data Engineering (April 02 - 06, 2001). IEEE Computer Society, Washington, DC, 359-367.
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-18
Hierarchische Clusteranalysen
Allgemein Optimierung der
Clusterbildung, d.h. eine optimale Aufteilung der Objekte auf Cluster wird angestrebt
Nicht-Revidierbarkeit eines Objektes zu einem Cluster
Hierarchische Struktur darstellbar in einem Dendrogramm
Reading Club - Similarity
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-19
Hierarchisch-agglomerative Verfahren
Allgemein 0.) Distanzmatrix 1.) Feinste Partition; Jedes
Objekt ein Cluster 2.) Suche die Cluster mit
der kleinsten Distanz 3.) Fusioniere die zwei
gefundenen Cluster 4.) Berechne die
Distanzmatrix neu 5.) Beende n-1 Fusion (alle
Objekte in einem Cluster) oder gehe zu Schritt zwei
Inter-Cluster-Distanz Allgemein Formel:
Distanz des durch die Fusion der Cluster p und q entstandenen Clusters t zu einem beliebigen Cluster r
Reading Club - Similarity
qrprpqqrqprptr dddddd
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-20
Fusionsstrategien (1)
Single-Linkage
Complete-Linkage
Reading Club - Similarity
qrprqrprtr ddddd 2
1)(
2
1
qrprqrprtr ddddd 2
1)(
2
1
),min( qrprtr ddd
),max( qrprtr ddd
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-21
Beispiel: Single-Linkage
Reading Club - Similarity
=
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-22
Fusionsstrategien (2)
Centroid-Verfahren
Group-Average
Reading Club - Similarity
pqt
qpqr
t
qpr
t
ptr d
n
nnd
n
nd
n
nd
2
m
l
lrltxx xxd rt
1
22 )(
qrt
qpr
t
ptr d
n
nd
n
nd
t rn
i
n
jij
rttr d
nnd
1 1
1
Inversionsproblem
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-23
Fusionsstrategien (3)
Median-Verfahren
Flexible Strategie
Reading Club - Similarity
pqqrprtr dddd4
1)(
2
1
pqqrprtr dddd )21()(
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-24
Fusionsstrategien (4)
Wards-Verfahren
Reading Club - Similarity
])()[(1
pqrqrqrprprrt
tr dndnndnnnn
d
m
l
n
i
lrilrr
r
xxE1 1
2)(
k
rrw EE
1
qptpq EEEE
m
l
lqlp
qp
qppq xx
nn
nnE
1
2)(
1
1)(
n
stsw EEE
1
1)( 0
n
ssTB EEE
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-25Reading Club - Similarity
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-26
Fusionsstrategien (5)
Entropieanalyse
Reading Club - Similarity
m
llrr HH
1
k
rrw HH
1
qptpq HHHH
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-27
Hierarchisch-divise Verfahren
Anmerkungen Idee: Cluster auf geschickte
Art und Weise zu zerteilen Nur für kleine Datenmengen
praktikabel
Divisiv-polythetische Verfahren Alle Variablen werden
simultan betrachtet
Divisiv-monothetische Verfahren Nur eine Variable wird
betrachtet Meistens binäre Variablen
Reading Club - Similarity
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-28
Divisiv-polythetische Verfahren
Dissimilarity Analysis 1.) Für jedes Objekt wird die
Distanz zu dem aus den übrigen n-1 Objekten bestehenden Cluster (Cr) berechnet ( )
2.) Das Objekt mit dem größten Distanzwert bildet den Anfang neues Cluster (Cs)
3.) Für jedes der n-1 Objekte in Cr wird die Distanz zu den n-2 in Cr verbliebenen Objekten und Cs bestimmt
4.) Objekt mit Maximalem kommt von Cr nach Cs
5.) Wiederhole bis kein Objekt mehr in Cr vorhanden ist
6.) Beginne bei Schritt drei oder Abbruchkriterium
Reading Club - Similarity
ird
isir dd
0 isir dd
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-29
Divisiv-monothetische Verfahren
Assoziationsanalyse Für binäre Variablen Nimm jenes Merkmal, dass
den größten Anteil an der Gesamtvarianz aller Merkmale besitzt
1.) Bestimme für jedes Paar von Variablen und eine 2 x 2 Kontingenzmatrix und berechne:
2.) Division nach dem Merkmal für das gilt:
Reading Club - Similarity
))()()((
)( 22
dbcadcba
bcadlh
Maximumlh 2
lX hX
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-30
Sonstiges (1)
Graphentheoretische Verfahren Menge A von Objekten wird
als vollständiger Graph betrachtet, dessen Kanten (oi, oj) mit Distanzen dij bewertet sind
Entferne aus dem Minimalgerüst dieses Graphen für d > 0 die Kanten mit einer Bewertung dij > d
Vergleichbar mit Single-Linkage
Reading Club - Similarity
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-31
Sonstiges (2)
Statistische Modellansätze …
Reading Club - Similarity
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-32Reading Club - Similarity
Teil 1Similarity: Geometrisches Modell
Teil 2Verfahren zur Clusteranalysen
Teil 3Kritische Schlussbemerkungen
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-33
Allgemeines Geometrisches Modell
Axiome Minimality
(a,b) ≥ (a,a) = 0
Symmetry
(a,b) = (b,a)
Triangle inequality
(a,b) + (b,c) ≥ (a,c)
Gegenbeispiele Gilmore, Hersh, Camarazza
and Griffin (1979) Buchstabe M wurde öfter als H erkannt als als M
„North Korea is like Red China“ - „Red China is like North Korea “
Tversky (1977): Jamaica is similar to Cuba (geographisch); Cuba is similar to Russia (politisch), but Jamaica and Russia are not similar at all
Reading Club - Similarity
Lehrstuhl für Angewandte Informatik in den
Kultur-, Geschichts- und Geowissenschaften
Seite 1-34
Vielen Dank für die Aufmerksamkeit!
Fragen?
Reading Club - Similarity