Kontingenztafel
absolute Häufigkeit
Zelle
Zeilensummen
Spaltensummen
Randverteilungen
oder Randhäufigkeiten
Streudiagramm
Kontingenzkoeffizient
(empirisch) unabhängig
Erwartungshäufigkeit
(Bravais-Pearson)
Korrelationskoeffizient
Kovarianz
(empirisch) unkorreliert
Rangzahlen
Spearman'sche
Rangkorrelationskoeffizient
Regression
Methode der kleinsten
Quadrate
Regressionsgerade
Anpassung (Fit)
Residuum
Bestimmtheitsmaß
Residualplot
Dabei ist:
Ein Streudiagramm ist eine grafische Darstellung von zwei Merkmalen, wobei das eine Merkmal auf der x-Achse, das andere auf der y-Achse eines x-y-Koordinatensystems abgetragen wird. Jedem Merkmalsträger i, , entspricht dabei ein Symbol (z.B. ) am Punkt im Diagramm, wobei bzw. der Wert des Merkmals X bzw. Y des Merkmalsträgers i ist.
Ein Zusammenhangsmaß für zwei nominale Merkmale heißt Kontingenzkoeffizient, wenn es auf einer Kontingenztafel der beiden Merkmale beruht. Im Allgemeinen werden dabei die Klassen nur mit einer Merkmalsausprägung besetzt.
Zwei Merkmale heißen (empirisch) unabhängig, wenn alle beobachteten Häufigkeiten mit den dazugehörigen Erwartungshäufigkeiten für unabhängige Merkmale übereinstimmen, das heißt,
wobei sich die Erwartungshäufigkeit in Zelle k,l wegen der Unabhängigkeit der Merkmale aus dem Produkt der relativen Randhäufigkeiten bzw. und der Anzahl der Beobachtungen n berechnet
Der (Bravais-Pearson) Korrelationskoeffizient r der Merkmale X und Y ist definiert als die "mittlere Fläche mit dem Achsenschnittpunkt":
Die Kovarianz der Merkmale X und Y ist definiert als:
Merkmale, deren Korrelationskoeffizient gleich Null ist, heißen (empirisch)
unkorreliert.
Rangzahlen sind definiert als
für
, , wobei
die Rangliste der Werte von X ist. Bei gleichen Merkmalsausprägungen
werden die dazugehörigen Rangzahlen gemittelt.
Der Spearman'sche
Rangkorrelationskoeffizient ist definiert durch
wobei und gilt.
Regression
Die Bestimmung einer optimal angepaßten Gerade an die Wertepaare
jedes Merkmalsträgers i,
, zweier Merkmale X und Y nach dem Prinzip der Kleinsten
Quadrate heißt Regression oder Methode
der kleinsten Quadrate. Dabei werden Achsenabschnitt
und Steigung
berechnet, so daß die Fehlerquadratsumme
minimal wird. Die so bestimmte Gerade
heißt Regressionsgerade.
heißt Anpassung (Fit) von
und heißt Residuum,
jeweils für die Beobachtung
.
Das Bestimmtheitsmaß
(der Daten durch die Regressionsgerade) ist definiert durch
.
Ein Residualplot ist ein Streudiagramm
mit den angepaßten y-Werten (
) auf der x-Achse und den Residuen (e) auf der y-Achse.