Statistik | Karteikarten online lernen

Statistik (22 Karten)

Sag Danke

Funktionen von Statistik - zugehörige Teilgebiete

Funktionen:
a) Reduktion von Komplexität
b) Erkennen und Beschreiben von Strukturen und Regelmässigkeiten
->
Teilgebiete: Deskriptive Verfahren und explorative Verfahren

Funktion:
Prüfung von Hypothesen; Rückschlüsse von Stichprobeneigenschaften auf solche der Grundgesamtheit
->
Teilgebiet: Konfirmative Verfahren

2
Kartenlink

Explorative Datenanalyse

• Fehlersuche und Datenbereinigung

• Charakteristika von Verteilungen (Skalenniveau, Verteilungsform)

• Analyse von Ausreisserwerten und deren Einfluss auf Verteilungen (Scatterplots, Boxplots etc.)

• Überprüfung der Qualität von Skalen (Skalenanalyse)

• Suche nach latenten Datenstrukturen (Faktorenanalyse, Clusterungstechniken, multidimensionale Skalierung)

3
Kartenlink

Deskriptive Datenanalyse

• Kennwerte, welche die Charakteristika umfangreicher Verteilungen fassbar machen (Masse für die zentrale Tendenz, Homogenität bzw. Streuung, Quartilsabstände, Schiefe, Steilheit etc.)

• Kennwerte, die das Verhältnis von Merkmalsverteilungen zueinander beschreiben (Zusammenhangsmasse)

• Datenaufbereitung und visuelle Ausgabe (Barcharts, Piecharts, Scatterplots etc.)

4
Kartenlink

Konfirmative Datenanalyse

• Probabilistische Rückschlüsse von Stichproben auf Grundgesamtheiten

• Testen von Hypothesen, u.a.
   - zu Eigenschaften einzelner Merkmalsverteilungen (Abweichung
     von theoretischen Verteilungen)
   - zu Zusammenhängen zwischen zwei oder mehr
     Merkmalsverteilungen
   - Differenzen zwischen disjunkten Gruppen

5
Kartenlink

Univariate Verfahren

• Analysen bezogen auf jeweils ein einzelnes variierendes Merkmal (eine Variable A)

• Bpeispiel
- Häufigkeitsauszählung einer Variable (Geschlecht, Alter etc.)

- Feststellen der Verteilungsform bzw. -charakteristik

- Masse für die zentrale Tendenz (z.B. Mittelwert) und die Streuung (z.B. Standardabweichung)

- Überprüfung, ob eine gegebene Verteilung einer Normalverteilung entspricht

6
Kartenlink

Bivariate Verfahren

• Analysen bezogen auf jeweils zwei variierende Merkmale (zwei Variablen A und B)

• Beispiele:
- Grad der Assoziation bzw. des Zusammenhangs zwischen A und B (z.B. Produkt-Moment-Korrelation);

- Analyse von Differenzen von zwei oder mehr disjunkten Gruppen (Gruppierungsvariable B) bezüglich eines Merkmals (Variable A); (Einfaktorielle Varianzanalyse, t-Test)

7
Kartenlink

Multivariate Verfahren

• Analysen bezogen auf jeweils drei oder mehr variierende
Merkmale (n Variablen A, B, C etc.)

• Bsp. für Verfahren mit einer Zielvariablen:
- Varianzanalytische Prädiktion von Variable C aufgrund der
Variablen A und B und deren Zusammenwirken (Interaktion)

- Überprüfung theoretischer Annahmen zu Einflüssen von n
Variablen (A bis N) auf Variable Y mittels multipler Regression

Beispiele für ein Verfahren ohne Zielvariable
- Analyse der Reliabilität (Messgenauigkeit) einer psychometrischen
Skala bestehend aus n Items (Einzelfragen); Skalenanalyse

8
Kartenlink

Multivariate statistische Analysen sind deshalb so bedeutsam,
weil...

- Die Realität, insbesondere die soziale Realität, sehr komplex ist,

- Phänomene praktisch nie nur durch eine einzige Variable
beeinflusst werden, sondern durch eine potentielle Vielzahl,

- Variablen im Abhängigkeit von anderen Variablen eine andere
Wirkung haben können (Interaktion),

- sich in zu einfachen Kausalmodellen an der Oberfläche zeigende
Zusammenhänge zu fatalen Fehlinterpretationen führen können.

9
Kartenlink

Nominalskala (auch: nominales oder kategoriales Skalenniveau)

- Objekte mit identischen Merkmalsausprägungen werden zu
sogenannten Äquivalenzklassen zusammen gefasst

- Beispiele sind etwa: Gattungen von Lebewesen, Berufe, Geschlecht

Die Codierung ist willkürlich, d.h. vier Kategorien A, B, C und D können mit den Codes 1, 2, 3, 4 aber auch 3, 1, 4, 2 oder 22, 1, 245, 8174 oder w, v, x, z etc. codiert werden. Auf die Auswertungen mittels Verfahren für nominal skalierte Daten hat dies keinerlei Einfluss, da die Codes nur der Identifikation der Gruppe/Klasse dienen.

10
Kartenlink

Ordinalskala (auch: ordinales Skalenniveau)

- Objekte werden nach Grad der Ausprägung eines Merkmals in eine Rangreihe gebracht.

- Das Kriterium der Transitivität muss erfüllt sein, d.h. wenn eine Rangfolge A, B, C, D lautet, muss neben der „Dominanz“ von A über B auch eine solche von A über C und über D bestehen.

- Beispiele sind: Windstärke in Beaufort, militärische Ränge,
Sympathierangfolge für 5 Politiker/innen

- Die Codierung ist nicht vollständig willkürlich sondern muss den
Grössenrelationen Rechnung tragen. Vier nach Rang geordnete
Klassen A, B, C, D können jedoch ebenso mit den Codes 1, 2, 3, 4 wie mit 2, 3, 4, 5, mit 10, 11, 39, 40 oder mit 1, 10, 100, 1000 codiert werden. Auf die Auswertungen mittels Verfahren für ordinal skalierte Daten hat dies keinerlei Einfluss (Äquidistanz ist nicht erforderlich).

11
Kartenlink

Intervallskala (auch: metrisches Skalenniveau)

- Objekte werden auf einer Skala angeordnet, welche die Stärke
der Ausprägung eines Merkmals als Masszahl wiedergibt.

- Beispiele sind: Temperatur in °Celsius, Temperatur in °Fahrenheit, IQ*

- Hierfür gilt das Äquidistanzkriterium: Eine identische Distanz zwischen zwei Skalenmesswerten muss in allen Bereichen der Skala identischen Merkmalsdifferenzen
auf dem empirischen Relativ entsprechen. So muss etwa
die effektive Temperaturdifferenz zwischen den Skalenwerten 10°C und 15°C gleich gross sein wie zwischen den Skalenwerte n 22°C und 27°C.

- Die Codierung entspricht dem Messwert. Bei psychometrischen
Instrumenten wird meist das Muster 1 bis n verwendet auch wenn
lineare Transformationen (Addition, Subtraktion, Multiplikation, Division) zulässig sind und manchmal eingesetzt werden (z.B. sind die Codes 1, 2, 3, 4 oder 10, 11, 12, 13 oder 100, 110, 120, 130 äquivalent).

12
Kartenlink

Ratioskala (auch: Verhältnisskalenniveau)

- Die Ratioskala entspricht einer Intervallskala mit eindeutig definiertem Nullpunkt. Dadurch gilt nicht nur Gleichheit von Distanzen sondern auch von Verhältnissen bzw. Proportionen (deshalb der Name Ratioskala). Eine Reaktionszeit von 5.6 Sekunden ist doppelt so lang wie eine Zeit von 2.8 Sekunden, eine solche von 11.2 Sekunden ist doppelt so lang wie eine Zeit von 5.6 Sekunden und viermal so lang wie eine Zeit von 2.8 Sekunden.

- Beispiele: Gewicht, Reaktionszeit, Lebensalter

- Die Codierung entspricht dem Messwert, einzig Multiplikationen und Divisionen nicht aber Additionen und Subtraktionen sind zulässig
(aber unüblich). Würde zur Variablen eine Konstante hinzugerechnet oder abgezogen ginge der Ratiocharakter der Skala verloren; sie wiese nur noch Intervallniveau auf!

13
Kartenlink

Skalenniveau - Sonderfall ordinal skalierte Variable

Ordinal skalierte Variablen mit mindestens fünf Ausprägungen können nach pragmatischen Empfehlungen von Wittenberg (1998, S. 76) dann als (quasi-) metrisch skaliert betrachtet werden, wenn die Verteilungsform weit gehend einer Normalverteilung entspricht (Normalverteilungsprüfung!).

14
Kartenlink

Skalenniveau - Sonderfall - Dichotome Variablen

Dichotome Variablen, d.h. solche mit zwei natürlich gegebenen (z.B. Geschlecht) oder künstlich erzeugten Ausprägungen (z.B. Ausbildung auf Maturastufe vs. andere) können in vielen (aber nicht allen) Fällen als metrische Variablen gelten und wie solche gehandhabt werden (empfohlene Codes: „0; 1“ oder „1; 2“). (vgl. „Punkt-biseriale Korrelation“)

15
Kartenlink

Skalenniveau - Sonderfall - Variablen mit Ausprägungen k >= 3

Variablen mit drei oder mehr kategorialen Ausprägungen (k ≥ 3) können in k-1 dichotome „Dummy“-Variablen transformiert werden („Dummysierung“). Jede dieser Dummy-Variablen kann wiederum als metrische Variable behandelt werden (s. nächste Veranstaltung).

16
Kartenlink

Was ist eine Dummy-Variable

Eine Dummyvariable ist eine Ersatzvariable
in neuem vereinfachtem – eben dichotomem –
Format, die als Platzhalter für ein
Einzelmerkmal fungiert.

17
Kartenlink

Dummyvariablen in multivariaten Modellen - wieviele dürfen als Prädiktoren aufgenommen werden?

In multivariaten Modellen dürfen und sollen jeweils nur k-1 Dummyvariablen (hier zwei von dreien) eingeführt werden, da die jeweils letzte (k-te) Variable sich aus den anderen zu 100% erschliesst (lineare Abhängigkeit).

Aus einer Kategorialen Variable mit 6 Ausprägungen lassen sich also ohne Informationsverlust 3 Dummyvariablen mit zwei Ausprägungen erzeugen.
Werden diese in ein Regressionsmodell einbezogen, dürfen aber nur deren 2 als Prädiktoren aufgenommen werden.

18
Kartenlink

Was ist eine Normalverteilung?

Eine Normalverteilung ist eine bestimmte Verteilungscharakteristik bzw. eine spezifische Wahrscheinlichkeitsdichtefunktion mit grosser
Bedeutung in der Statistik.

19
Kartenlink

Charakteristiken einer Normalverteilung

In einer Normalverteilung liegen 95.0% aller
Fälle zwischen M - Standardabweichungen
und M + Standardabweichungen.

In einer Normalverteilung liegen ca. 68% aller Beobachtungen zwischen dem Mittelwert -1 Standardabweichung und dem Mittelwert +1 Standardabweichung. Ca. 95.5% liegen zwischen M-2 Standardabweichungen und M+2 Standardabweich.

20
Kartenlink

Bedeutung der Normalverteilung am Beispiel des t-Tests

Sind beide Variablen annähernd normal verteilt, so ist der Flächenanteil der Überschneidungsfläche eine exakt definierte

Funktion der Mittelwertdifferenzen (

2 -

1) und mittels der z-Verteilung bestimmbar.

21
Kartenlink

T-Test (Buch Stöckli S. 55)

Soll eine Mittelwertdifferenz mittels des t-Tests statistisch abgesichert werden, müssen beide Verteilungen annähernd normal sein.

t-Test ist eine Entscheidungsregel mit deren Hilfe ein Unterschied zwischen den empirisch gefundenen Mittelwerten zweier Gruppen näher analysiert werden kann.

H0: Differenz ist zufällig. Stichproben entstammen einer einzigen Grundgesamtheit
H1: Die Differenz ist signifikant, d.h. die beiden Stichproben entstammen nicht der gleichen Grundgesammtheit.

Er liefert eine Entscheidungshilfe dafür, ob ein gefundener
Mittelwertsunterschied rein zufällig entstanden ist, oder ob es
wirklich bedeutsame Unterschiede zwischen den zwei untersuchten
Gruppen gibt.

wichtigste Wert für die Durchführung eines t-Tests ist die
Differenz der Gruppenmittelwerte. Diese Differenz bildet den
Stichprobenkennwert des t-Tests (Mittelwert 1 - Mittelwert 2) T-Test kann nur zwei Mittelwerte vergleichen

22
Kartenlink

Normalverteilung - Bedeutung und Eigenschaften

Ist eine der Variablen, oder beide, nicht annähernd normalverteilt,
ist der Flächenanteil des Überschneidungsbereichs für bestimmte
Mittelwertdifferenzen nicht mehr exakt mittels der z-Verteilung ableitbar.

Es sind keine verlässlichen, wahrscheinlichkeitstheoretisch begründeten Aussagen zur Signifikanz von Mittelwertdifferenzen mehr möglich.

Kartensatzinfo:

Autor: salami

Oberthema: Statistik

Thema: Advanced

Veröffentlicht: 04.05.2010

Schlagwörter Karten:

Alle Karten (22)

keine Schlagwörter

Missbrauch melden

Deutsch English

Hol' Dir diese Lernkarten, lerne & bestehe Prüfungen. Kostenlos! Auch auf iPhone/Android!

Statistik (22 Karten)