CoboCards App FAQ & Wünsche Feedback
Sprache: Deutsch Sprache
Kostenlos registrieren  Login

Hol' Dir diese Lernkarten, lerne & bestehe Prüfungen. Kostenlos! Auch auf iPhone/Android!

E-Mail eingeben: und Kartensatz kostenlos importieren.  
Und Los!
Alle Oberthemen / Statistik / Inferenzstatistik

Inferenzstatistik (167 Karten)

Sag Danke
97
Kartenlink
0
Was ist die Clusteranalyse und was passiert da ?
- Verfahren zur Gruppenbildung
- Personen werden gruppiert, die sich ähnlich sind (ähnliche
Eigenschaftsstruktur aufweisen) / es wird eine Typologie gebildet
- zwischen den Gruppen sollte keine Ähnlichkeiten bestehen
- zahlreiche Charakteristika werden herangezogen

„Analyse einer heterogenen Gesamtheit von
Objekten mit dem Ziel, homogene Teilmengen von
Objekten aus der Objektgesamtheit zu
identifizieren“

Beispiel:
Typologie von Internetnutzern
86 Studierende geben 4 Merkmale zur Interneterfahrung (Selbsteinschätzung : Länge Expertiese , Zweck, ...)
3 Gruppen von Internetusern werden ermittelt

Tags: Clusteranalyse, VL08
Quelle:
98
Kartenlink
0
Wie läuft eine Clusteranalyse ab ?
- Bestimmung der Ähnlichkeiten

- Auswahl des Fusionierungsalgorithmus

- Bestimmung der Clusterzahl
Tags: Clusteranalyse, VL08
Quelle:
99
Kartenlink
0
Welche Verfahren unterscheidet man im Rahmen der Clusteranalyse? Welche werden in der Praxis bevorzugt eingesetzt?
• Partitionierende und hierarchische Verfahren

• Hierarchische Verfahren werden häufiger angewandt.
Tags: Clusteranalyse, VL08
Quelle:
100
Kartenlink
0
Welche zwei Proximitätsmaße gibt es und wie unterscheiden sie sich? Wie entscheidet man, welches Maß man einsetzt?
Ähnlichkeitsmaße
- zeigen ähnlichen Verlauf der Profile, diese können aber auf völlig unterschiedlichem Niveau liegen
- Berechnung über Q-Korrelationskoeffizienten
- je größer dieser ist, desto ähnlicher

Distanzmaße
- zeigen (Un-)Ähnlichkeit der Werte, nicht der Profilverläufe an
- Berechnung über quadrierte euklidische Distanz
- je größer diese ist, desto unähnlicher

Die Entscheidung über die Verwendung hängt von inhaltlichen Überlegungen ab.
Tags: Clusteranalyse, VL08
Quelle:
101
Kartenlink
0
Wie geht man vor bei der Bestimmung der Ähnlichkeiten auf Nominalskalenniveau (Clusteranalyse)?
- bekannte Rohdatanmatrix wird Distanz- oder Ähnlichkeitsmatrix überführt (Personen in Zeilen UND Spalten)

- enthalten sind die Ähnlichkeits - bzw. Unähnlichkeitswerte ( Distanzwerte)  zwischen den betrachjteten Personen

- Zwei Proximitätsmaße
  - Ähnlichkeitsmaß ( je größer desto ähnlicher )
  - Distanzmaß ( je größer desto unähnlicher)
(Je nach Skalenniveau können unterschiedliche Formeln verwendet werden um Proximitätsmaße zu berechnen.)

Tags: Clusteranalyse, VL08
Quelle:
102
Kartenlink
0
Wie bestimmt man bei nominalen Variablen binärer Struktur den Proximitätswert?
Bei binären Verhaltenstrukturen  ( z.B. Intennutzer ja/nein):

– für jede Variable feststellen, ob ein Objekt das Merkmal aufweist oder nicht

– 0 (Eigenschaft nicht vorhanden) oder 1 (Eigenschaft vorhanden)

– Berechnung des Tanimoto-, Jaccard-, RR- oder M-Koeffizienten:

   - Anzahl übereinstimmender Merkmale werden in den Zähler
     gesetzt.
   - Anzahl der Merkmale, die nur bei einem vorhanden sind,
     werden in den Nenner gesetzt (Tanimoto-Koeffizient)
   - Ergebnis 1 bezeichnet totale Ähnlichkeit
     Ergebnis 0 bezeichnet keine Ähnlichkeit


Bei mehrkategorialer nominaler Variablenstruktur müssen Kategorien in binären Code überführt werden (bei vier Ausprägungen 1000, 0100, 0010, 0001)!
Tags: Clusteranalyse, VL08
Quelle:
103
Kartenlink
0
Wie funktioniert die Bestimmung der Ähnlichkeiten bei metrischen Daten (Clusteranalyse) mittels eines Distanzmaßes?
L-Normen sind verbreitete Distanzmaße
(z.B. Euklidische Distanz (L2-Norm))

– Bildung von Differenzwerten für jede Eigenschaft / Bestimmung der Beziehung zwischen Personen per Distanz (identisch -> Distanz = 0)
–  Addition der quadrierten Differenzwerte pro Paar
–  Aufsummieren
–  Ziehen der Quadratwurzel aus der Summe
– Durch die Quadrierung werden große Differenzwerte stärker berücksichtigt

Rohdatenmatrix wird in Distanzmaßenmatrix überführt.





Tags: Clusteranalyse, VL08
Quelle:
104
Kartenlink
0
Was sind die Voraussetzungen für die Bildung der Euklidischen Distanz (L-Norm)?
- metrische Daten
- vergleichbare Maßeinheiten
( z.B. Erhebung aller Variablen auf gleichstufiger Skala)

Liegt dies nicht vor muss Standardisierung aller Merkmale vorgenommen werden um Werte vergleichbar zu machen.
Tags: Clusteranalyse, VL08
Quelle:
105
Kartenlink
0
Wann wähle ich ein Proximitäts-, wann ein Ähnlichkeitsmaß (Clusteranalyse, metrisch)?
Distanzmaße geeignet wenn
absolute Abstand zwischen Objekten von Interesse ist.und Unähnlichkeit um so größer anzusehen ist, je weiter Objekte voneinander entfernt liuegen

Ähnlichkeitsmaße sind geeignet wenn
der primäre Ähnlichkeitsaspekt im Gleichlauf zweier Profile zu sehen ist, undabhängig davon, auf w2elchem Niveau die Objekte liegen

( in der Praxis häufiger Distanzmaße)



Tags: Clusteranalyse, VL08
Quelle:
106
Kartenlink
0
Wie bestimmt man die Ähnlichkeit gemischtskalierter Variablent?
Es gibt zwei verschiedene Möglichkeiten:

Getrennte Berechnung der Proximitätsmaße für metrische und nominale Variablen
- Gesamtähnlichlkeit wird durch gewichteten oder ungewichteten Mittelwert berechnet .

Transformation auf niedrigeres Skalenniveau
- durch Dichitomisierung
- Nachteil: Verlust von vielen Informationen
Tags: Clusteranalyse, VL08
Quelle:
107
Kartenlink
0
Welche Möglichkeiten hat man bei der Wahl des Fusionierungsalgorithmus?
Da alle Beschreibungsmerkmale herangezogen werden sollen, werden so genannte polythetische Verfahren genutzt:


Tags: Clusteranalyse, VL08
Quelle:
108
Kartenlink
0
Wie unterscheiden sich partitionierende von hierarchischen Verfahren zur Bestimmung des Fusionierungsalgorithmus?
Partitionierende Verfahren gehen von gegebener Gruppierung (Startpartition) aus und ordnen mit Hilfe eines Algorithmus so lange um, bis ein Optimum erreicht ist (während des Prozesses
werden noch Elemente zwischen den Gruppen getauscht)
-> alle ähnlichen Personen zusammengefasst

Hierarschisches Verfahren
agglomerative und divisive Algorithmen:
Bei agglomerativen startet man von der feinsten Partition (Anzahl der Personen), bei der divisiven Vorgehensweise ist die
gröbste Partition der Ausgangspunkt (alle Personen befinden sich in einer Gruppe)
Tags: Clusteranalyse, VL08
Quelle:
109
Kartenlink
0
Wie laufen agglomerative, hierarchische Partitionierungsverfahren ab?
Schritt 1: Start mit feinsten Partition
(jedes Objekt ist ein Cluster)
Schritt 2: Für alle Objekte Distanz berechnen
(quadrierte Euklidische Distanz)
Schritt 3: Gesucht: die beiden Cluster mit der geringsten
Distanz zueinander
Schritt 4: Zusammenfassung dieser ähnlichsten Objekte
zu einem Cluster; Zahl der Gruppen nimmt um 1 ab
Schritt 5: Berechnung der Abstände zwischen der neuen
und den übrigen Gruppen => reduzierte Distanzmatrix
Schritte 3 - 5 so lange, bis alle Untersuchungsobjekte in
einer Gruppe sind

Ergebnis in Dendrogramm dargestellt
Tags: Clusteranalyse, VL08
Quelle:
110
Kartenlink
0
Wie werden die verschiedene Verfahren anhand ihrer Fusionierungseigenschaften charakterisiert?
- Dilatierende Verfahren 
Personen werden in etwa gleich große Gruppen zusammengefasst

- Kontrahierende Verfahren
bilden zunächst wenige große Gruppen, denen viele kleine gegenüberstehen (können Ausreißer indentifizieren)

- Konservative Verfahren
weisen weder Tendenzen zu Dilatation noch Kontraktion auf


Außerdem wird unterschieden, ob das Verfahren zur Kettenbildung neigt (im Prozess werden primär einzelne Objekte aneinandergereiht und erzeugt dadurch große Gruppen)
Tags: Clusteranalyse, VL08
Quelle:
111
Kartenlink
0
Nenne verschiedene Verfahren mit ihren jeweiligen Fusionierungseigenschaften und Proximitätsmaßen!
Tags: Clusteranalyse, VL08
Quelle:
112
Kartenlink
0
Was ist das Ward-Verfahren und welche Voraussetzung bestehen für dessen Anwendung?
sehr guter Fusionierungsalgorithmus

Vorrausetzungen:
- Verwendung eines Distanzmaßes inhaltlich sinnvoll
- Alle Variablen metrisch
- Keine Ausreißer enthalten (oder vorherneliminiert)
- Variablen sind unkorreliert
- Elementzahl wird in jeder Gruppe ungefähr gleich groß sein

Beruht auf Berücksichtigung der Streuung der Elemente:
Immer diejenigen Objekte werden vereinigt, die die Fehlerquadratsumme am wenigsten erhöhen.
Tags: Clusteranalyse, VL08
Quelle:
113
Kartenlink
0
Wie bestimmt man die Clusteranzahl?
- Der Anwender muss entscheiden, welche Anzahl von Gruppen die beste ist
- Das Verfahren ist explorativ, ohne sachlogisch begründbare Vorstellung zur Gruppierung
- Daher wird die Bestimmung der Gruppenanzahl an statistischen und nicht sachlogischen Gründen orientiert
- Aus dem Dendrogramm lassen sich bereits optisch sinnvolle Gruppentrennungen erkennen

- Außerdem: Elbow-Kriterium

- SPSS berechnet Homogenitäts-Werte für jede Variable einer gefundenen Gruppe.
Ein Cluster ist dann als vollkommen homogen anzusehen,
wenn alle Werte kleiner sind als 1
Tags: Clusteranalyse, VL08
Quelle:
114
Kartenlink
0
Was ist das Elbow-Kriterium? Wie wird es bestimmt?
Ein Verfahren / Hilfestellung zur Festlegung der Gruppenzahl bei einer Clusteranalyse

- In Grafik wird Heterogentitätsentwicklung und Clusteranzahl abgetragen (je weniger Cluster desto heterogener sind diese)
- Wird ein Sprung (Elbow) in der Heterogentitätsentwicklung deutlich, so kann dies als Entscheidungskriterium genutzt werden,
denn einerseits sollen nicht zu viele Cluster entstehen
(Handhabbarkeit), andererseits sollen die Cluster in sich
möglichst homogen sein.
Tags: Clusteranalyse, VL08
Quelle:
115
Kartenlink
0
Nenne einige Anwendungsempfehlungen zur Bestimmung der "optimalen" Clusteranzahl!
- Ausreißer entfernen (Single-Linkage-Verfahren)

- Nur Merkmale berücksichtigen, die relevant für den zu untersuchenden Sachverhalt sind

- Hoch korrelierende Merkmale nicht mit einbeziehen
(entweder als EIN Faktor einbeziehen oder eine Variable ausschließen)

- Standardisierung wenn unterschiedliche Skalenniveaus vorhanden sind

- Agglomerative Verfahren führen bei großen Fallzahlen zu Berechnungsproblemen -> In dem Fall eher partitionierende Verfahren
Tags: Clusteranalyse, VL08
Quelle:
116
Kartenlink
0
Welche Vor- und Nachteile bietet die Clusteranalyse?
Anwender hat bei der Clusteranalyse einen breiten Manövrier- und Einflussraum

• Vorteil: breites Anwendungsgebiet der Verfahren
• Nachteil/Gefahr: die Daten so lange zu manipulieren,
bis sich ein gewünschtes Ergebnis zeigt
Tags: Clusteranalyse, VL08
Quelle:
117
Kartenlink
0
Wofür kann Clusteranalyse genutzt werden ?
- Viele zu den Objekten (Personen) erhobene Variablen
   -> Entwicklung einer neuen Typologie

- Entstandene Typologien eigenen sich für weitere Berechnungen
   - homogene Untergruppen gebildet, die als neue UV genutzt
     werden können

- Aufklärung weiterer Varianz

- Gegenüberstellung von bestimmten, sich ähnelnden Gruppen in Bezug auf eine AV (z. B. „Spielspaß“)

- Unterschiede herausstellbar
Tags: Clusteranalyse, VL08
Quelle:
Kartensatzinfo:
Autor: P-H-I-L
Oberthema: Statistik
Thema: Inferenzstatistik
Veröffentlicht: 13.04.2010
 
Schlagwörter Karten:
Alle Karten (167)
Chi-Quadrat-Test (12)
Clusteranalyse (21)
Effektstärke (2)
Entscheidungsbaum (1)
kritische Reflektion (1)
Kruskal-Wallis (4)
Multiple Regression (8)
Multiple Regrssion (1)
Regressionsanalyse (24)
Tutorium (2)
Übung (6)
Varianzanalyse (68)
VL 09 (17)
VL 10 (15)
Vl 10 (2)
VL 11 (15)
Vl 11 (1)
VL03 (14)
VL04 (22)
VL05 (11)
VL06 (2)
VL07 (11)
VL08 (21)
Missbrauch melden

Abbrechen
E-Mail

Passwort

Login    

Passwort vergessen?
Deutsch  English