next up previous
Next: Über dieses Dokument Up: Deskriptive Statistik Previous: Univariate Merkmale


Bivariate Merkmale


 Kontingenztafel
 absolute Häufigkeit
 Zelle
 Zeilensummen
 Spaltensummen
 Randverteilungen oder Randhäufigkeiten
 Streudiagramm
 Kontingenzkoeffizient
 (empirisch) unabhängig
 Erwartungshäufigkeit
 (Bravais-Pearson) Korrelationskoeffizient
 Kovarianz
 (empirisch) unkorreliert
 Rangzahlen
 Spearman'sche Rangkorrelationskoeffizient
 Regression
 Methode der kleinsten Quadrate
 Regressionsgerade
 Anpassung (Fit)
 Residuum
 Bestimmtheitsmaß
 Residualplot



Die Merkmalsausprägungen x des univariaten Merkmals X seien in Klassen  eingeteilt, die Merkmalsausprägungen y des univariaten Merkmals Y in Klassen  . Eine Kontingenztafel ist ein 2-dimensionales Schema, in dem für jede Kombination einer der Klassen  mit einer der Klassen  die absolute Häufigkeit eingetragen wird, daß ein Paar (x,y) in diese Klassenkombination fällt:

Dabei ist:

die gemeinsame (absolute) Häufigkeit der Klassen  und  , also die (absolute) Häufigkeit der Zelle k,l.
, heißen Zeilensummen,
Spaltensummen.
Die Spalten- bzw. Zeilensummen repräsentieren die Häufigkeitsverteilung von X bzw. Y. Diese heißen auch Randverteilungen oder Randhäufigkeiten.

Ein Streudiagramm ist eine grafische Darstellung von zwei Merkmalen, wobei das eine Merkmal auf der x-Achse, das andere auf der y-Achse eines x-y-Koordinatensystems abgetragen wird. Jedem Merkmalsträger i, entspricht dabei ein Symbol (z.B.  ) am Punkt  im Diagramm, wobei  bzw.  der Wert des Merkmals X bzw. Y des Merkmalsträgers i ist.

Ein Zusammenhangsmaß für zwei nominale Merkmale heißt Kontingenzkoeffizient, wenn es auf einer Kontingenztafel der beiden Merkmale beruht. Im Allgemeinen werden dabei die Klassen nur mit einer Merkmalsausprägung besetzt.

Zwei Merkmale heißen (empirisch) unabhängig, wenn alle beobachteten Häufigkeiten mit den dazugehörigen Erwartungshäufigkeiten für unabhängige Merkmale übereinstimmen, das heißt,

wobei sich die Erwartungshäufigkeit  in Zelle k,l wegen der Unabhängigkeit der Merkmale aus dem Produkt der relativen Randhäufigkeiten  bzw.  und der Anzahl der Beobachtungen n berechnet

Der (Bravais-Pearson) Korrelationskoeffizient r der Merkmale X und Y ist definiert als die "mittlere Fläche mit dem Achsenschnittpunkt":

Die Kovarianz  der Merkmale X und Y ist definiert als:

Merkmale, deren Korrelationskoeffizient gleich Null ist, heißen (empirisch) unkorreliert.

Rangzahlen sind definiert als

für  , wobei  die Rangliste der Werte von X ist. Bei gleichen Merkmalsausprägungen werden die dazugehörigen Rangzahlen gemittelt.
Der Spearman'sche Rangkorrelationskoeffizient ist definiert durch

wobei  und  gilt.

Regression
Die Bestimmung einer optimal angepaßten Gerade an die Wertepaare  jedes Merkmalsträgers i , zweier Merkmale X und Y nach dem Prinzip der Kleinsten Quadrate heißt Regression oder Methode der kleinsten Quadrate. Dabei werden Achsenabschnitt  und Steigung  berechnet, so daß die Fehlerquadratsumme

minimal wird. Die so bestimmte Gerade  heißt Regressionsgerade heißt Anpassung (Fit) von  und  heißt Residuum, jeweils für die Beobachtung  .
Das Bestimmtheitsmaß (der Daten durch die Regressionsgerade) ist definiert durch  .
Ein Residualplot ist ein Streudiagramm mit den angepaßten y-Werten (  ) auf der x-Achse und den Residuen (e) auf der y-Achse.


next up previous
Next: Über dieses Dokument Up: Deskriptive Statistik Previous: Univariate Merkmale
Thorsten Joachims

Fri Feb 20 16:16:46 MET 1998