Bivariate Merkmale

Next: Über dieses Dokument Up: Deskriptive Statistik Previous: Univariate Merkmale

Bivariate Merkmale

Kontingenztafel
absolute Häufigkeit
Zelle
Zeilensummen
Spaltensummen
Randverteilungen oder Randhäufigkeiten
Streudiagramm
Kontingenzkoeffizient
(empirisch) unabhängig
Erwartungshäufigkeit
(Bravais-Pearson) Korrelationskoeffizient
Kovarianz
(empirisch) unkorreliert
Rangzahlen
Spearman'sche Rangkorrelationskoeffizient
Regression
Methode der kleinsten Quadrate
Regressionsgerade
Anpassung (Fit)
Residuum
Bestimmtheitsmaß
Residualplot

Die Merkmalsausprägungen x des univariaten Merkmals X seien in Klassen

eingeteilt, die Merkmalsausprägungen y des univariaten Merkmals Y in Klassen

. Eine Kontingenztafel ist ein 2-dimensionales Schema, in dem für jede Kombination einer der Klassen

mit einer der Klassen

die absolute Häufigkeit eingetragen wird, daß ein Paar (x,y) in diese Klassenkombination fällt:

Dabei ist:

die gemeinsame (absolute) Häufigkeit der Klassen

und

, also die (absolute) Häufigkeit der Zelle k,l.

, heißen Zeilensummen,

, Spaltensummen.

Die Spalten- bzw. Zeilensummen repräsentieren die Häufigkeitsverteilung von X bzw. Y. Diese heißen auch Randverteilungen oder Randhäufigkeiten.

Ein Streudiagramm ist eine grafische Darstellung von zwei Merkmalen, wobei das eine Merkmal auf der x-Achse, das andere auf der y-Achse eines x-y-Koordinatensystems abgetragen wird. Jedem Merkmalsträger i, , entspricht dabei ein Symbol (z.B. ) am Punkt im Diagramm, wobei bzw. der Wert des Merkmals X bzw. Y des Merkmalsträgers i ist.

Ein Zusammenhangsmaß für zwei nominale Merkmale heißt Kontingenzkoeffizient, wenn es auf einer Kontingenztafel der beiden Merkmale beruht. Im Allgemeinen werden dabei die Klassen nur mit einer Merkmalsausprägung besetzt.

Zwei Merkmale heißen (empirisch) unabhängig, wenn alle beobachteten Häufigkeiten mit den dazugehörigen Erwartungshäufigkeiten für unabhängige Merkmale übereinstimmen, das heißt,

wobei sich die Erwartungshäufigkeit in Zelle k,l wegen der Unabhängigkeit der Merkmale aus dem Produkt der relativen Randhäufigkeiten bzw. und der Anzahl der Beobachtungen n berechnet

Der (Bravais-Pearson) Korrelationskoeffizient r der Merkmale X und Y ist definiert als die "mittlere Fläche mit dem Achsenschnittpunkt":

Die Kovarianz der Merkmale X und Y ist definiert als:

Merkmale, deren Korrelationskoeffizient gleich Null ist, heißen (empirisch) unkorreliert.

Rangzahlen sind definiert als

für , , wobei die Rangliste der Werte von X ist. Bei gleichen Merkmalsausprägungen werden die dazugehörigen Rangzahlen gemittelt.
Der Spearman'sche Rangkorrelationskoeffizient ist definiert durch

wobei und gilt.

Regression
Die Bestimmung einer optimal angepaßten Gerade an die Wertepaare jedes Merkmalsträgers i, , zweier Merkmale X und Y nach dem Prinzip der Kleinsten Quadrate heißt Regression oder Methode der kleinsten Quadrate. Dabei werden Achsenabschnitt und Steigung berechnet, so daß die Fehlerquadratsumme

minimal wird. Die so bestimmte Gerade heißt Regressionsgerade. heißt Anpassung (Fit) von und heißt Residuum, jeweils für die Beobachtung .
Das Bestimmtheitsmaß (der Daten durch die Regressionsgerade) ist definiert durch .
Ein Residualplot ist ein Streudiagramm mit den angepaßten y-Werten ( ) auf der x-Achse und den Residuen (e) auf der y-Achse.

Next: Über dieses Dokument Up: Deskriptive Statistik Previous: Univariate Merkmale

Thorsten Joachims

Fri Feb 20 16:16:46 MET 1998