Liste
Urliste
geordnete Liste bzw. Rangliste
Histogramm
Balken
Fläche
Stabdiagramm
empirische Verteilungsfunktion
arithmetisches Mittel
bzw. Mittelwert (mean)
Median ("Zentralwert")
Modalwert (Modus)
empirisches p-Quantil
Standardabweichung
empirische Varianz
Quartilsdifferenz
(interquartile range)
Spannweite (range)
Box-(und whisker-) Plot
Box
innere Linie
Whiskers
verfeinerter Box-(und
whisker-)Plot
innere Zäune
Anrainer
Außenpunkte oder Ausreißer
Fernpunkte
äußere Zäune
Ein Histogramm ist eine grafische Darstellung der relativen Häufigkeitsverteilung der Werte eines stetigen kardinalen Merkmals X auf einer Gesamtheit. Dabei werden die Werte in Klassen eingeteilt. Die Klassengrenzen werden auf der x-Achse aufgetragen. Für jede Klasse wird ein "Balken" gezeichnet, der auf der x-Achse durch die Klassengrenzen begrenzt wird. Die Fläche (!!) eines "Balkens" beschreibt die relative Häufigkeit einer Klasse. Die Balkenhöhe der k-ten Klasse ist , wobei die relative Häufigkeit und die Klassenbreite sind. Bei der Klassenbreite als Spezialfall ist also die Balkenhöhe , d.h. die relative Häufigkeit der Klasse. Die Gesamtfläche der Balken ist gleich 1.
Bei diskreten Merkmalen wird stattdessen ein sogenanntes Stabdiagramm verwendet, in dem pro Merkmalsausprägung ein schmaler Balken (sogenannter Stab) mit der Höhe über dem Merkmalswert gezeichnet wird, wobei
Die empirische Verteilungsfunktion (oder Summenhäufigkeitsfunktion) S(x) wird durch die Folge der Summenhäufigkeiten , , der verwendeten Merkmalsklassen festgelegt:
Die empirische Verteilungsfunktion ist also eine linksstetige Treppenfunktion
mit Sprungstellen an den Enden der jeweiligen Intervalle der Klassen
. Die Sprunghöhe gibt dabei die relative Häufigkeit der Beobachtungen
an, die in die Klasse
fallen.
Es ist auch die Bildung einer empirischen Verteilungsfunktion anhand
der Einzelausprägungen
möglich. Mit den relativen Summenhäufigkeiten
, ergibt sich
Das arithmetische Mittel auch Mittelwert (mean) ist definiert durch die Summation über die Merkmalswerte aller Beobachtungen und der anschlieáenden Normierung mit der Anzahl der Beobachtungen:
Der Median ("Zentralwert", 50%-Wert) ist derjenige Wert, für den jeweils mindestens 50% der Merkmalswerte größer oder gleich bzw. kleiner oder gleich sind. Der Median ist der mittlere Wert der Rangliste:
Der Modalwert (Modus, "häufigster Wert") ist derjenige Merkmalswert, der am häufigsten vorkommt. Er liegt zwar nicht unbedingt in der Mitte der Merkmalwerte, bietet sich natürlich trotzdem als Repräsentant der Merkmalswerte an!
Ein empirisches p-Quantil, , ist eine Zahl, so daß abgerundet der Merkmalswerte aus einer Gesamtheit kleiner oder gleich sind und aufgerundet größer oder gleich.
Die Standardabweichung ist die Wurzel der empirischen Varianz , die der Durchschnitt der quadrierten Abweichungen vom arithmetischen Mittel ist:
Standardabweichung und empirische Varianz sind die häufigsten Streuungsparameter. Ein anderes Streuungsmaß ist die Quartilsdifferenz (interquartile range) qd mit
die die Länge des um den Median symmetrischen Intervalls angibt, in dem 50 % der Beobachtungen liegen. Die Spannweite (range) R gibt den Abstand zwischen größtem und kleinstem Merkmalswert an:
Der einfachste
Box-(und whisker-)Plot besteht aus einem Kasten
(Box) mit den vertikalen Begrenzungslinien unteres
bzw. oberes Quartil
und dem Median
als innere Linie sowie den Verbindungslinien
(wkiskers, Schnurrbarthaare) von den Quartilen zu den entsprechenden
Extremwerten.
Bei einem verfeinerten
Box-(und whisker-)Plot werden die Verbindungslinien nur bis zum äußersten
Wert gezogen, der
Next: Bivariate
Merkmale Up: Deskriptive
Statistik Previous: Grundbegriffe