Inferenzstatistik | Karteikarten online lernen | CoboCards

CoboCards App FAQ & Wünsche Feedback

Sprache: Deutsch Sprache

Sprache

Kostenlos registrieren Login

Alle Oberthemen / Statistik / Inferenzstatistik

Inferenzstatistik (167 Karten)

Sag Danke

Was ist die Clusteranalyse und was passiert da ?

- Verfahren zur Gruppenbildung
- Personen werden gruppiert, die sich ähnlich sind (ähnliche
Eigenschaftsstruktur aufweisen) / es wird eine Typologie gebildet
- zwischen den Gruppen sollte keine Ähnlichkeiten bestehen
- zahlreiche Charakteristika werden herangezogen

„Analyse einer heterogenen Gesamtheit von
Objekten mit dem Ziel, homogene Teilmengen von
Objekten aus der Objektgesamtheit zu
identifizieren“

Beispiel:
Typologie von Internetnutzern
86 Studierende geben 4 Merkmale zur Interneterfahrung (Selbsteinschätzung : Länge Expertiese , Zweck, ...)
3 Gruppen von Internetusern werden ermittelt

Tags: Clusteranalyse, VL08
Quelle:

Wie läuft eine Clusteranalyse ab ?

- Bestimmung der Ähnlichkeiten

- Auswahl des Fusionierungsalgorithmus

- Bestimmung der Clusterzahl

Tags: Clusteranalyse, VL08
Quelle:

Welche Verfahren unterscheidet man im Rahmen der Clusteranalyse? Welche werden in der Praxis bevorzugt eingesetzt?

• Partitionierende und hierarchische Verfahren

• Hierarchische Verfahren werden häufiger angewandt.

Tags: Clusteranalyse, VL08
Quelle:

Welche zwei Proximitätsmaße gibt es und wie unterscheiden sie sich? Wie entscheidet man, welches Maß man einsetzt?

Ähnlichkeitsmaße
- zeigen ähnlichen Verlauf der Profile, diese können aber auf völlig unterschiedlichem Niveau liegen
- Berechnung über Q-Korrelationskoeffizienten
- je größer dieser ist, desto ähnlicher

Distanzmaße
- zeigen (Un-)Ähnlichkeit der Werte, nicht der Profilverläufe an
- Berechnung über quadrierte euklidische Distanz
- je größer diese ist, desto unähnlicher

Die Entscheidung über die Verwendung hängt von inhaltlichen Überlegungen ab.

Tags: Clusteranalyse, VL08
Quelle:

Wie geht man vor bei der Bestimmung der Ähnlichkeiten auf Nominalskalenniveau (Clusteranalyse)?

- bekannte Rohdatanmatrix wird Distanz- oder Ähnlichkeitsmatrix überführt (Personen in Zeilen UND Spalten)

- enthalten sind die Ähnlichkeits - bzw. Unähnlichkeitswerte ( Distanzwerte) zwischen den betrachjteten Personen

- Zwei Proximitätsmaße
- Ähnlichkeitsmaß ( je größer desto ähnlicher )
- Distanzmaß ( je größer desto unähnlicher)
(Je nach Skalenniveau können unterschiedliche Formeln verwendet werden um Proximitätsmaße zu berechnen.)

Tags: Clusteranalyse, VL08
Quelle:

Wie bestimmt man bei nominalen Variablen binärer Struktur den Proximitätswert?

Bei binären Verhaltenstrukturen ( z.B. Intennutzer ja/nein):

– für jede Variable feststellen, ob ein Objekt das Merkmal aufweist oder nicht

– 0 (Eigenschaft nicht vorhanden) oder 1 (Eigenschaft vorhanden)

– Berechnung des Tanimoto-, Jaccard-, RR- oder M-Koeffizienten:

   - Anzahl übereinstimmender Merkmale werden in den Zähler
     gesetzt.
   - Anzahl der Merkmale, die nur bei einem vorhanden sind,
     werden in den Nenner gesetzt (Tanimoto-Koeffizient)
   - Ergebnis 1 bezeichnet totale Ähnlichkeit
     Ergebnis 0 bezeichnet keine Ähnlichkeit

Bei mehrkategorialer nominaler Variablenstruktur müssen Kategorien in binären Code überführt werden (bei vier Ausprägungen 1000, 0100, 0010, 0001)!

Tags: Clusteranalyse, VL08
Quelle:

Wie funktioniert die Bestimmung der Ähnlichkeiten bei metrischen Daten (Clusteranalyse) mittels eines Distanzmaßes?

L-Normen sind verbreitete Distanzmaße
(z.B. Euklidische Distanz (L2-Norm))

– Bildung von Differenzwerten für jede Eigenschaft / Bestimmung der Beziehung zwischen Personen per Distanz (identisch -> Distanz = 0)
– Addition der quadrierten Differenzwerte pro Paar
– Aufsummieren
– Ziehen der Quadratwurzel aus der Summe
– Durch die Quadrierung werden große Differenzwerte stärker berücksichtigt

Rohdatenmatrix wird in Distanzmaßenmatrix überführt.

Tags: Clusteranalyse, VL08
Quelle:

Was sind die Voraussetzungen für die Bildung der Euklidischen Distanz (L-Norm)?

- metrische Daten
- vergleichbare Maßeinheiten
( z.B. Erhebung aller Variablen auf gleichstufiger Skala)

Liegt dies nicht vor muss Standardisierung aller Merkmale vorgenommen werden um Werte vergleichbar zu machen.

Tags: Clusteranalyse, VL08
Quelle:

Wann wähle ich ein Proximitäts-, wann ein Ähnlichkeitsmaß (Clusteranalyse, metrisch)?

Distanzmaße geeignet wenn
absolute Abstand zwischen Objekten von Interesse ist.und Unähnlichkeit um so größer anzusehen ist, je weiter Objekte voneinander entfernt liuegen

Ähnlichkeitsmaße sind geeignet wenn
der primäre Ähnlichkeitsaspekt im Gleichlauf zweier Profile zu sehen ist, undabhängig davon, auf w2elchem Niveau die Objekte liegen

( in der Praxis häufiger Distanzmaße)

Tags: Clusteranalyse, VL08
Quelle:

Wie bestimmt man die Ähnlichkeit gemischtskalierter Variablent?

Es gibt zwei verschiedene Möglichkeiten:

Getrennte Berechnung der Proximitätsmaße für metrische und nominale Variablen
- Gesamtähnlichlkeit wird durch gewichteten oder ungewichteten Mittelwert berechnet .

Transformation auf niedrigeres Skalenniveau
- durch Dichitomisierung
- Nachteil: Verlust von vielen Informationen

Tags: Clusteranalyse, VL08
Quelle:

Welche Möglichkeiten hat man bei der Wahl des Fusionierungsalgorithmus?

Da alle Beschreibungsmerkmale herangezogen werden sollen, werden so genannte polythetische Verfahren genutzt:

Tags: Clusteranalyse, VL08
Quelle:

Wie unterscheiden sich partitionierende von hierarchischen Verfahren zur Bestimmung des Fusionierungsalgorithmus?

Partitionierende Verfahren gehen von gegebener Gruppierung (Startpartition) aus und ordnen mit Hilfe eines Algorithmus so lange um, bis ein Optimum erreicht ist (während des Prozesses
werden noch Elemente zwischen den Gruppen getauscht)
-> alle ähnlichen Personen zusammengefasst

Hierarschisches Verfahren
agglomerative und divisive Algorithmen:
Bei agglomerativen startet man von der feinsten Partition (Anzahl der Personen), bei der divisiven Vorgehensweise ist die
gröbste Partition der Ausgangspunkt (alle Personen befinden sich in einer Gruppe)

Tags: Clusteranalyse, VL08
Quelle:

Wie laufen agglomerative, hierarchische Partitionierungsverfahren ab?

Schritt 1: Start mit feinsten Partition
(jedes Objekt ist ein Cluster)
Schritt 2: Für alle Objekte Distanz berechnen
(quadrierte Euklidische Distanz)
Schritt 3: Gesucht: die beiden Cluster mit der geringsten
Distanz zueinander
Schritt 4: Zusammenfassung dieser ähnlichsten Objekte
zu einem Cluster; Zahl der Gruppen nimmt um 1 ab
Schritt 5: Berechnung der Abstände zwischen der neuen
und den übrigen Gruppen => reduzierte Distanzmatrix
Schritte 3 - 5 so lange, bis alle Untersuchungsobjekte in
einer Gruppe sind

Ergebnis in Dendrogramm dargestellt

Tags: Clusteranalyse, VL08
Quelle:

Wie werden die verschiedene Verfahren anhand ihrer Fusionierungseigenschaften charakterisiert?

- Dilatierende Verfahren
Personen werden in etwa gleich große Gruppen zusammengefasst

- Kontrahierende Verfahren
bilden zunächst wenige große Gruppen, denen viele kleine gegenüberstehen (können Ausreißer indentifizieren)

- Konservative Verfahren
weisen weder Tendenzen zu Dilatation noch Kontraktion auf

Außerdem wird unterschieden, ob das Verfahren zur Kettenbildung neigt (im Prozess werden primär einzelne Objekte aneinandergereiht und erzeugt dadurch große Gruppen)

Tags: Clusteranalyse, VL08
Quelle:

Nenne verschiedene Verfahren mit ihren jeweiligen Fusionierungseigenschaften und Proximitätsmaßen!

Tags: Clusteranalyse, VL08
Quelle:

Was ist das Ward-Verfahren und welche Voraussetzung bestehen für dessen Anwendung?

sehr guter Fusionierungsalgorithmus

Vorrausetzungen:
- Verwendung eines Distanzmaßes inhaltlich sinnvoll
- Alle Variablen metrisch
- Keine Ausreißer enthalten (oder vorherneliminiert)
- Variablen sind unkorreliert
- Elementzahl wird in jeder Gruppe ungefähr gleich groß sein

Beruht auf Berücksichtigung der Streuung der Elemente:
Immer diejenigen Objekte werden vereinigt, die die Fehlerquadratsumme am wenigsten erhöhen.

Tags: Clusteranalyse, VL08
Quelle:

Wie bestimmt man die Clusteranzahl?

- Der Anwender muss entscheiden, welche Anzahl von Gruppen die beste ist
- Das Verfahren ist explorativ, ohne sachlogisch begründbare Vorstellung zur Gruppierung
- Daher wird die Bestimmung der Gruppenanzahl an statistischen und nicht sachlogischen Gründen orientiert
- Aus dem Dendrogramm lassen sich bereits optisch sinnvolle Gruppentrennungen erkennen

- Außerdem: Elbow-Kriterium

- SPSS berechnet Homogenitäts-Werte für jede Variable einer gefundenen Gruppe.
Ein Cluster ist dann als vollkommen homogen anzusehen,
wenn alle Werte kleiner sind als 1

Tags: Clusteranalyse, VL08
Quelle:

Was ist das Elbow-Kriterium? Wie wird es bestimmt?

Ein Verfahren / Hilfestellung zur Festlegung der Gruppenzahl bei einer Clusteranalyse

- In Grafik wird Heterogentitätsentwicklung und Clusteranzahl abgetragen (je weniger Cluster desto heterogener sind diese)
- Wird ein Sprung (Elbow) in der Heterogentitätsentwicklung deutlich, so kann dies als Entscheidungskriterium genutzt werden,
denn einerseits sollen nicht zu viele Cluster entstehen
(Handhabbarkeit), andererseits sollen die Cluster in sich
möglichst homogen sein.

Tags: Clusteranalyse, VL08
Quelle:

Nenne einige Anwendungsempfehlungen zur Bestimmung der "optimalen" Clusteranzahl!

- Ausreißer entfernen (Single-Linkage-Verfahren)

- Nur Merkmale berücksichtigen, die relevant für den zu untersuchenden Sachverhalt sind

- Hoch korrelierende Merkmale nicht mit einbeziehen
(entweder als EIN Faktor einbeziehen oder eine Variable ausschließen)

- Standardisierung wenn unterschiedliche Skalenniveaus vorhanden sind

- Agglomerative Verfahren führen bei großen Fallzahlen zu Berechnungsproblemen -> In dem Fall eher partitionierende Verfahren

Tags: Clusteranalyse, VL08
Quelle:

Welche Vor- und Nachteile bietet die Clusteranalyse?

Anwender hat bei der Clusteranalyse einen breiten Manövrier- und Einflussraum

• Vorteil: breites Anwendungsgebiet der Verfahren
• Nachteil/Gefahr: die Daten so lange zu manipulieren,
bis sich ein gewünschtes Ergebnis zeigt

Tags: Clusteranalyse, VL08
Quelle:

Wofür kann Clusteranalyse genutzt werden ?

- Viele zu den Objekten (Personen) erhobene Variablen
   -> Entwicklung einer neuen Typologie

- Entstandene Typologien eigenen sich für weitere Berechnungen
   - homogene Untergruppen gebildet, die als neue UV genutzt
     werden können

- Aufklärung weiterer Varianz

- Gegenüberstellung von bestimmten, sich ähnelnden Gruppen in Bezug auf eine AV (z. B. „Spielspaß“)

- Unterschiede herausstellbar

Tags: Clusteranalyse, VL08
Quelle:

Kartensatzinfo:

Autor: P-H-I-L

Oberthema: Statistik

Thema: Inferenzstatistik

Veröffentlicht: 13.04.2010

Schlagwörter Karten:

Alle Karten (167)

Chi-Quadrat-Test (12)

Clusteranalyse (21)

Effektstärke (2)

Entscheidungsbaum (1)

kritische Reflektion (1)

Kruskal-Wallis (4)

Multiple Regression (8)

Multiple Regrssion (1)

Regressionsanalyse (24)

Varianzanalyse (68)

VL 09 (17)

VL 10 (15)

VL 11 (15)

VL03 (14)

VL04 (22)

VL05 (11)

VL06 (2)

VL07 (11)

VL08 (21)

Missbrauch melden

Deutsch English