Was ist die Clusteranalyse und was passiert da ?
- Verfahren zur Gruppenbildung
- Personen werden gruppiert, die sich ähnlich sind (ähnliche
Eigenschaftsstruktur aufweisen) / es wird eine Typologie gebildet
- zwischen den Gruppen sollte keine Ähnlichkeiten bestehen
- zahlreiche Charakteristika werden herangezogen
„Analyse einer heterogenen Gesamtheit von
Objekten mit dem Ziel, homogene Teilmengen von
Objekten aus der Objektgesamtheit zu
identifizieren“
Beispiel:
Typologie von Internetnutzern
86 Studierende geben 4 Merkmale zur Interneterfahrung (Selbsteinschätzung : Länge Expertiese , Zweck, ...)
3 Gruppen von Internetusern werden ermittelt
- Personen werden gruppiert, die sich ähnlich sind (ähnliche
Eigenschaftsstruktur aufweisen) / es wird eine Typologie gebildet
- zwischen den Gruppen sollte keine Ähnlichkeiten bestehen
- zahlreiche Charakteristika werden herangezogen
„Analyse einer heterogenen Gesamtheit von
Objekten mit dem Ziel, homogene Teilmengen von
Objekten aus der Objektgesamtheit zu
identifizieren“
Beispiel:
Typologie von Internetnutzern
86 Studierende geben 4 Merkmale zur Interneterfahrung (Selbsteinschätzung : Länge Expertiese , Zweck, ...)
3 Gruppen von Internetusern werden ermittelt
Tags: Clusteranalyse, VL08
Source:
Source:
Wie läuft eine Clusteranalyse ab ?
- Bestimmung der Ähnlichkeiten
- Auswahl des Fusionierungsalgorithmus
- Bestimmung der Clusterzahl
- Auswahl des Fusionierungsalgorithmus
- Bestimmung der Clusterzahl
Tags: Clusteranalyse, VL08
Source:
Source:
Welche Verfahren unterscheidet man im Rahmen der Clusteranalyse? Welche werden in der Praxis bevorzugt eingesetzt?
• Partitionierende und hierarchische Verfahren
• Hierarchische Verfahren werden häufiger angewandt.
• Hierarchische Verfahren werden häufiger angewandt.
Tags: Clusteranalyse, VL08
Source:
Source:
Welche zwei Proximitätsmaße gibt es und wie unterscheiden sie sich? Wie entscheidet man, welches Maß man einsetzt?
Ähnlichkeitsmaße
- zeigen ähnlichen Verlauf der Profile, diese können aber auf völlig unterschiedlichem Niveau liegen
- Berechnung über Q-Korrelationskoeffizienten
- je größer dieser ist, desto ähnlicher
Distanzmaße
- zeigen (Un-)Ähnlichkeit der Werte, nicht der Profilverläufe an
- Berechnung über quadrierte euklidische Distanz
- je größer diese ist, desto unähnlicher
Die Entscheidung über die Verwendung hängt von inhaltlichen Überlegungen ab.
- zeigen ähnlichen Verlauf der Profile, diese können aber auf völlig unterschiedlichem Niveau liegen
- Berechnung über Q-Korrelationskoeffizienten
- je größer dieser ist, desto ähnlicher
Distanzmaße
- zeigen (Un-)Ähnlichkeit der Werte, nicht der Profilverläufe an
- Berechnung über quadrierte euklidische Distanz
- je größer diese ist, desto unähnlicher
Die Entscheidung über die Verwendung hängt von inhaltlichen Überlegungen ab.
Tags: Clusteranalyse, VL08
Source:
Source:
Wie geht man vor bei der Bestimmung der Ähnlichkeiten auf Nominalskalenniveau (Clusteranalyse)?
- bekannte Rohdatanmatrix wird Distanz- oder Ähnlichkeitsmatrix überführt (Personen in Zeilen UND Spalten)
- enthalten sind die Ähnlichkeits - bzw. Unähnlichkeitswerte ( Distanzwerte) zwischen den betrachjteten Personen
- Zwei Proximitätsmaße
- Ähnlichkeitsmaß ( je größer desto ähnlicher )
- Distanzmaß ( je größer desto unähnlicher)
(Je nach Skalenniveau können unterschiedliche Formeln verwendet werden um Proximitätsmaße zu berechnen.)
- enthalten sind die Ähnlichkeits - bzw. Unähnlichkeitswerte ( Distanzwerte) zwischen den betrachjteten Personen
- Zwei Proximitätsmaße
- Ähnlichkeitsmaß ( je größer desto ähnlicher )
- Distanzmaß ( je größer desto unähnlicher)
(Je nach Skalenniveau können unterschiedliche Formeln verwendet werden um Proximitätsmaße zu berechnen.)
Tags: Clusteranalyse, VL08
Source:
Source:
Wie bestimmt man bei nominalen Variablen binärer Struktur den Proximitätswert?
Bei binären Verhaltenstrukturen ( z.B. Intennutzer ja/nein):
– für jede Variable feststellen, ob ein Objekt das Merkmal aufweist oder nicht
– 0 (Eigenschaft nicht vorhanden) oder 1 (Eigenschaft vorhanden)
– Berechnung des Tanimoto-, Jaccard-, RR- oder M-Koeffizienten:
- Anzahl übereinstimmender Merkmale werden in den Zähler
gesetzt.
- Anzahl der Merkmale, die nur bei einem vorhanden sind,
werden in den Nenner gesetzt (Tanimoto-Koeffizient)
- Ergebnis 1 bezeichnet totale Ähnlichkeit
Ergebnis 0 bezeichnet keine Ähnlichkeit
Bei mehrkategorialer nominaler Variablenstruktur müssen Kategorien in binären Code überführt werden (bei vier Ausprägungen 1000, 0100, 0010, 0001)!
– für jede Variable feststellen, ob ein Objekt das Merkmal aufweist oder nicht
– 0 (Eigenschaft nicht vorhanden) oder 1 (Eigenschaft vorhanden)
– Berechnung des Tanimoto-, Jaccard-, RR- oder M-Koeffizienten:
- Anzahl übereinstimmender Merkmale werden in den Zähler
gesetzt.
- Anzahl der Merkmale, die nur bei einem vorhanden sind,
werden in den Nenner gesetzt (Tanimoto-Koeffizient)
- Ergebnis 1 bezeichnet totale Ähnlichkeit
Ergebnis 0 bezeichnet keine Ähnlichkeit
Bei mehrkategorialer nominaler Variablenstruktur müssen Kategorien in binären Code überführt werden (bei vier Ausprägungen 1000, 0100, 0010, 0001)!
Tags: Clusteranalyse, VL08
Source:
Source:
Wie funktioniert die Bestimmung der Ähnlichkeiten bei metrischen Daten (Clusteranalyse) mittels eines Distanzmaßes?
L-Normen sind verbreitete Distanzmaße
(z.B. Euklidische Distanz (L2-Norm))
– Bildung von Differenzwerten für jede Eigenschaft / Bestimmung der Beziehung zwischen Personen per Distanz (identisch -> Distanz = 0)
– Addition der quadrierten Differenzwerte pro Paar
– Aufsummieren
– Ziehen der Quadratwurzel aus der Summe
– Durch die Quadrierung werden große Differenzwerte stärker berücksichtigt
Rohdatenmatrix wird in Distanzmaßenmatrix überführt.
(z.B. Euklidische Distanz (L2-Norm))
– Bildung von Differenzwerten für jede Eigenschaft / Bestimmung der Beziehung zwischen Personen per Distanz (identisch -> Distanz = 0)
– Addition der quadrierten Differenzwerte pro Paar
– Aufsummieren
– Ziehen der Quadratwurzel aus der Summe
– Durch die Quadrierung werden große Differenzwerte stärker berücksichtigt
Rohdatenmatrix wird in Distanzmaßenmatrix überführt.
Tags: Clusteranalyse, VL08
Source:
Source:
Was sind die Voraussetzungen für die Bildung der Euklidischen Distanz (L-Norm)?
- metrische Daten
- vergleichbare Maßeinheiten
( z.B. Erhebung aller Variablen auf gleichstufiger Skala)
Liegt dies nicht vor muss Standardisierung aller Merkmale vorgenommen werden um Werte vergleichbar zu machen.
- vergleichbare Maßeinheiten
( z.B. Erhebung aller Variablen auf gleichstufiger Skala)
Liegt dies nicht vor muss Standardisierung aller Merkmale vorgenommen werden um Werte vergleichbar zu machen.
Tags: Clusteranalyse, VL08
Source:
Source:
Wann wähle ich ein Proximitäts-, wann ein Ähnlichkeitsmaß (Clusteranalyse, metrisch)?
Distanzmaße geeignet wenn
absolute Abstand zwischen Objekten von Interesse ist.und Unähnlichkeit um so größer anzusehen ist, je weiter Objekte voneinander entfernt liuegen
Ähnlichkeitsmaße sind geeignet wenn
der primäre Ähnlichkeitsaspekt im Gleichlauf zweier Profile zu sehen ist, undabhängig davon, auf w2elchem Niveau die Objekte liegen
( in der Praxis häufiger Distanzmaße)
absolute Abstand zwischen Objekten von Interesse ist.und Unähnlichkeit um so größer anzusehen ist, je weiter Objekte voneinander entfernt liuegen
Ähnlichkeitsmaße sind geeignet wenn
der primäre Ähnlichkeitsaspekt im Gleichlauf zweier Profile zu sehen ist, undabhängig davon, auf w2elchem Niveau die Objekte liegen
( in der Praxis häufiger Distanzmaße)
Tags: Clusteranalyse, VL08
Source:
Source:
Wie bestimmt man die Ähnlichkeit gemischtskalierter Variablent?
Es gibt zwei verschiedene Möglichkeiten:
Getrennte Berechnung der Proximitätsmaße für metrische und nominale Variablen
- Gesamtähnlichlkeit wird durch gewichteten oder ungewichteten Mittelwert berechnet .
Transformation auf niedrigeres Skalenniveau
- durch Dichitomisierung
- Nachteil: Verlust von vielen Informationen
Getrennte Berechnung der Proximitätsmaße für metrische und nominale Variablen
- Gesamtähnlichlkeit wird durch gewichteten oder ungewichteten Mittelwert berechnet .
Transformation auf niedrigeres Skalenniveau
- durch Dichitomisierung
- Nachteil: Verlust von vielen Informationen
Tags: Clusteranalyse, VL08
Source:
Source:
Welche Möglichkeiten hat man bei der Wahl des Fusionierungsalgorithmus?
Da alle Beschreibungsmerkmale herangezogen werden sollen, werden so genannte polythetische Verfahren genutzt:
Tags: Clusteranalyse, VL08
Source:
Source:
Wie unterscheiden sich partitionierende von hierarchischen Verfahren zur Bestimmung des Fusionierungsalgorithmus?
Partitionierende Verfahren gehen von gegebener Gruppierung (Startpartition) aus und ordnen mit Hilfe eines Algorithmus so lange um, bis ein Optimum erreicht ist (während des Prozesses
werden noch Elemente zwischen den Gruppen getauscht)
-> alle ähnlichen Personen zusammengefasst
Hierarschisches Verfahren
agglomerative und divisive Algorithmen:
Bei agglomerativen startet man von der feinsten Partition (Anzahl der Personen), bei der divisiven Vorgehensweise ist die
gröbste Partition der Ausgangspunkt (alle Personen befinden sich in einer Gruppe)
werden noch Elemente zwischen den Gruppen getauscht)
-> alle ähnlichen Personen zusammengefasst
Hierarschisches Verfahren
agglomerative und divisive Algorithmen:
Bei agglomerativen startet man von der feinsten Partition (Anzahl der Personen), bei der divisiven Vorgehensweise ist die
gröbste Partition der Ausgangspunkt (alle Personen befinden sich in einer Gruppe)
Tags: Clusteranalyse, VL08
Source:
Source:
Wie laufen agglomerative, hierarchische Partitionierungsverfahren ab?
Schritt 1: Start mit feinsten Partition
(jedes Objekt ist ein Cluster)
Schritt 2: Für alle Objekte Distanz berechnen
(quadrierte Euklidische Distanz)
Schritt 3: Gesucht: die beiden Cluster mit der geringsten
Distanz zueinander
Schritt 4: Zusammenfassung dieser ähnlichsten Objekte
zu einem Cluster; Zahl der Gruppen nimmt um 1 ab
Schritt 5: Berechnung der Abstände zwischen der neuen
und den übrigen Gruppen => reduzierte Distanzmatrix
Schritte 3 - 5 so lange, bis alle Untersuchungsobjekte in
einer Gruppe sind
Ergebnis in Dendrogramm dargestellt
(jedes Objekt ist ein Cluster)
Schritt 2: Für alle Objekte Distanz berechnen
(quadrierte Euklidische Distanz)
Schritt 3: Gesucht: die beiden Cluster mit der geringsten
Distanz zueinander
Schritt 4: Zusammenfassung dieser ähnlichsten Objekte
zu einem Cluster; Zahl der Gruppen nimmt um 1 ab
Schritt 5: Berechnung der Abstände zwischen der neuen
und den übrigen Gruppen => reduzierte Distanzmatrix
Schritte 3 - 5 so lange, bis alle Untersuchungsobjekte in
einer Gruppe sind
Ergebnis in Dendrogramm dargestellt
Tags: Clusteranalyse, VL08
Source:
Source:
Wie werden die verschiedene Verfahren anhand ihrer Fusionierungseigenschaften charakterisiert?
- Dilatierende Verfahren
Personen werden in etwa gleich große Gruppen zusammengefasst
- Kontrahierende Verfahren
bilden zunächst wenige große Gruppen, denen viele kleine gegenüberstehen (können Ausreißer indentifizieren)
- Konservative Verfahren
weisen weder Tendenzen zu Dilatation noch Kontraktion auf
Außerdem wird unterschieden, ob das Verfahren zur Kettenbildung neigt (im Prozess werden primär einzelne Objekte aneinandergereiht und erzeugt dadurch große Gruppen)
Personen werden in etwa gleich große Gruppen zusammengefasst
- Kontrahierende Verfahren
bilden zunächst wenige große Gruppen, denen viele kleine gegenüberstehen (können Ausreißer indentifizieren)
- Konservative Verfahren
weisen weder Tendenzen zu Dilatation noch Kontraktion auf
Außerdem wird unterschieden, ob das Verfahren zur Kettenbildung neigt (im Prozess werden primär einzelne Objekte aneinandergereiht und erzeugt dadurch große Gruppen)
Tags: Clusteranalyse, VL08
Source:
Source:
Nenne verschiedene Verfahren mit ihren jeweiligen Fusionierungseigenschaften und Proximitätsmaßen!
Tags: Clusteranalyse, VL08
Source:
Source:
Was ist das Ward-Verfahren und welche Voraussetzung bestehen für dessen Anwendung?
sehr guter Fusionierungsalgorithmus
Vorrausetzungen:
- Verwendung eines Distanzmaßes inhaltlich sinnvoll
- Alle Variablen metrisch
- Keine Ausreißer enthalten (oder vorherneliminiert)
- Variablen sind unkorreliert
- Elementzahl wird in jeder Gruppe ungefähr gleich groß sein
Beruht auf Berücksichtigung der Streuung der Elemente:
Immer diejenigen Objekte werden vereinigt, die die Fehlerquadratsumme am wenigsten erhöhen.
Vorrausetzungen:
- Verwendung eines Distanzmaßes inhaltlich sinnvoll
- Alle Variablen metrisch
- Keine Ausreißer enthalten (oder vorherneliminiert)
- Variablen sind unkorreliert
- Elementzahl wird in jeder Gruppe ungefähr gleich groß sein
Beruht auf Berücksichtigung der Streuung der Elemente:
Immer diejenigen Objekte werden vereinigt, die die Fehlerquadratsumme am wenigsten erhöhen.
Tags: Clusteranalyse, VL08
Source:
Source:
Wie bestimmt man die Clusteranzahl?
- Der Anwender muss entscheiden, welche Anzahl von Gruppen die beste ist
- Das Verfahren ist explorativ, ohne sachlogisch begründbare Vorstellung zur Gruppierung
- Daher wird die Bestimmung der Gruppenanzahl an statistischen und nicht sachlogischen Gründen orientiert
- Aus dem Dendrogramm lassen sich bereits optisch sinnvolle Gruppentrennungen erkennen
- Außerdem: Elbow-Kriterium
- SPSS berechnet Homogenitäts-Werte für jede Variable einer gefundenen Gruppe.
Ein Cluster ist dann als vollkommen homogen anzusehen,
wenn alle Werte kleiner sind als 1
- Das Verfahren ist explorativ, ohne sachlogisch begründbare Vorstellung zur Gruppierung
- Daher wird die Bestimmung der Gruppenanzahl an statistischen und nicht sachlogischen Gründen orientiert
- Aus dem Dendrogramm lassen sich bereits optisch sinnvolle Gruppentrennungen erkennen
- Außerdem: Elbow-Kriterium
- SPSS berechnet Homogenitäts-Werte für jede Variable einer gefundenen Gruppe.
Ein Cluster ist dann als vollkommen homogen anzusehen,
wenn alle Werte kleiner sind als 1
Tags: Clusteranalyse, VL08
Source:
Source:
Was ist das Elbow-Kriterium? Wie wird es bestimmt?
Ein Verfahren / Hilfestellung zur Festlegung der Gruppenzahl bei einer Clusteranalyse
- In Grafik wird Heterogentitätsentwicklung und Clusteranzahl abgetragen (je weniger Cluster desto heterogener sind diese)
- Wird ein Sprung (Elbow) in der Heterogentitätsentwicklung deutlich, so kann dies als Entscheidungskriterium genutzt werden,
denn einerseits sollen nicht zu viele Cluster entstehen
(Handhabbarkeit), andererseits sollen die Cluster in sich
möglichst homogen sein.
- In Grafik wird Heterogentitätsentwicklung und Clusteranzahl abgetragen (je weniger Cluster desto heterogener sind diese)
- Wird ein Sprung (Elbow) in der Heterogentitätsentwicklung deutlich, so kann dies als Entscheidungskriterium genutzt werden,
denn einerseits sollen nicht zu viele Cluster entstehen
(Handhabbarkeit), andererseits sollen die Cluster in sich
möglichst homogen sein.
Tags: Clusteranalyse, VL08
Source:
Source:
Nenne einige Anwendungsempfehlungen zur Bestimmung der "optimalen" Clusteranzahl!
- Ausreißer entfernen (Single-Linkage-Verfahren)
- Nur Merkmale berücksichtigen, die relevant für den zu untersuchenden Sachverhalt sind
- Hoch korrelierende Merkmale nicht mit einbeziehen
(entweder als EIN Faktor einbeziehen oder eine Variable ausschließen)
- Standardisierung wenn unterschiedliche Skalenniveaus vorhanden sind
- Agglomerative Verfahren führen bei großen Fallzahlen zu Berechnungsproblemen -> In dem Fall eher partitionierende Verfahren
- Nur Merkmale berücksichtigen, die relevant für den zu untersuchenden Sachverhalt sind
- Hoch korrelierende Merkmale nicht mit einbeziehen
(entweder als EIN Faktor einbeziehen oder eine Variable ausschließen)
- Standardisierung wenn unterschiedliche Skalenniveaus vorhanden sind
- Agglomerative Verfahren führen bei großen Fallzahlen zu Berechnungsproblemen -> In dem Fall eher partitionierende Verfahren
Tags: Clusteranalyse, VL08
Source:
Source:
Welche Vor- und Nachteile bietet die Clusteranalyse?
Anwender hat bei der Clusteranalyse einen breiten Manövrier- und Einflussraum
• Vorteil: breites Anwendungsgebiet der Verfahren
• Nachteil/Gefahr: die Daten so lange zu manipulieren,
bis sich ein gewünschtes Ergebnis zeigt
• Vorteil: breites Anwendungsgebiet der Verfahren
• Nachteil/Gefahr: die Daten so lange zu manipulieren,
bis sich ein gewünschtes Ergebnis zeigt
Tags: Clusteranalyse, VL08
Source:
Source:
Wofür kann Clusteranalyse genutzt werden ?
- Viele zu den Objekten (Personen) erhobene Variablen
-> Entwicklung einer neuen Typologie
- Entstandene Typologien eigenen sich für weitere Berechnungen
- homogene Untergruppen gebildet, die als neue UV genutzt
werden können
- Aufklärung weiterer Varianz
- Gegenüberstellung von bestimmten, sich ähnelnden Gruppen in Bezug auf eine AV (z. B. „Spielspaß“)
- Unterschiede herausstellbar
-> Entwicklung einer neuen Typologie
- Entstandene Typologien eigenen sich für weitere Berechnungen
- homogene Untergruppen gebildet, die als neue UV genutzt
werden können
- Aufklärung weiterer Varianz
- Gegenüberstellung von bestimmten, sich ähnelnden Gruppen in Bezug auf eine AV (z. B. „Spielspaß“)
- Unterschiede herausstellbar
Tags: Clusteranalyse, VL08
Source:
Source:
Flashcard set info:
Author: P-H-I-L
Main topic: Statistik
Topic: Inferenzstatistik
Published: 13.04.2010
Card tags:
All cards (167)
Chi-Quadrat-Test (12)
Clusteranalyse (21)
Effektstärke (2)
Kruskal-Wallis (4)
Regressionsanalyse (24)
Tutorium (2)
Übung (6)
Varianzanalyse (68)
VL 09 (17)
VL 10 (15)
Vl 10 (2)
VL 11 (15)
Vl 11 (1)
VL03 (14)
VL04 (22)
VL05 (11)
VL06 (2)
VL07 (11)
VL08 (21)