next up previous
Next: Bivariate Merkmale Up: Deskriptive Statistik Previous: Grundbegriffe


Univariate Merkmale


Liste
Urliste
geordnete Liste bzw. Rangliste
Histogramm
Balken
Fläche
Stabdiagramm
empirische Verteilungsfunktion
arithmetisches Mittel bzw. Mittelwert (mean)
Median ("Zentralwert")
Modalwert (Modus)
empirisches p-Quantil
Standardabweichung
empirische Varianz
Quartilsdifferenz (interquartile range)
Spannweite (range)
Box-(und whisker-) Plot
Box
innere Linie
Whiskers
verfeinerter Box-(und whisker-)Plot
innere Zäune
Anrainer
Außenpunkte oder Ausreißer
Fernpunkte
äußere Zäune



Listen sind übersichtliche tabellenartige Darstellungen der Werte eines Merkmals auf einer Grundgesamtheit.
Die in historischer Reihenfolge hintereinander geschriebenen Werte  eines Merkmals X auf einer Gesamtheit heißen Urliste. Die der Größe nach hintereinander geschriebenen Merkmalswerte  heißen geordnete Liste bzw. Rangliste.

Ein Histogramm ist eine grafische Darstellung der relativen Häufigkeitsverteilung der Werte eines stetigen kardinalen Merkmals X auf einer Gesamtheit. Dabei werden die Werte in Klassen  eingeteilt. Die Klassengrenzen werden auf der x-Achse aufgetragen. Für jede Klasse wird ein "Balken" gezeichnet, der auf der x-Achse durch die Klassengrenzen begrenzt wird. Die Fläche (!!) eines "Balkens" beschreibt die relative Häufigkeit einer Klasse. Die Balkenhöhe der k-ten Klasse ist  , wobei  die relative Häufigkeit und  die Klassenbreite sind. Bei der Klassenbreite  als Spezialfall ist also die Balkenhöhe  , d.h. die relative Häufigkeit der Klasse. Die Gesamtfläche der Balken ist gleich 1.

Bei diskreten Merkmalen wird stattdessen ein sogenanntes Stabdiagramm verwendet, in dem pro Merkmalsausprägung ein schmaler Balken (sogenannter Stab) mit der Höhe  über dem Merkmalswert gezeichnet wird, wobei

Die empirische Verteilungsfunktion (oder Summenhäufigkeitsfunktion) S(x) wird durch die Folge der Summenhäufigkeiten  , der verwendeten Merkmalsklassen festgelegt:

Die empirische Verteilungsfunktion ist also eine linksstetige Treppenfunktion mit Sprungstellen an den Enden der jeweiligen Intervalle der Klassen  . Die Sprunghöhe gibt dabei die relative Häufigkeit der Beobachtungen an, die in die Klasse  fallen.
Es ist auch die Bildung einer empirischen Verteilungsfunktion anhand der Einzelausprägungen  möglich. Mit den relativen Summenhäufigkeiten  ergibt sich

Das arithmetische Mittel auch Mittelwert (mean) ist definiert durch die Summation über die Merkmalswerte aller Beobachtungen und der anschlieáenden Normierung mit der Anzahl der Beobachtungen:

Der Median ("Zentralwert", 50%-Wert)  ist derjenige Wert, für den jeweils mindestens 50% der Merkmalswerte größer oder gleich bzw. kleiner oder gleich sind. Der Median ist der mittlere Wert der Rangliste:

Der Modalwert (Modus, "häufigster Wert")  ist derjenige Merkmalswert, der am häufigsten vorkommt. Er liegt zwar nicht unbedingt in der Mitte der Merkmalwerte, bietet sich natürlich trotzdem als Repräsentant der Merkmalswerte an!

Ein empirisches p-Quantil , ist eine Zahl, so daß abgerundet  der Merkmalswerte aus einer Gesamtheit kleiner oder gleich sind und aufgerundet  größer oder gleich.

Die Standardabweichung  ist die Wurzel der empirischen Varianz , die der Durchschnitt der  quadrierten Abweichungen vom arithmetischen Mittel ist:

Standardabweichung und empirische Varianz sind die häufigsten Streuungsparameter. Ein anderes Streuungsmaß ist die Quartilsdifferenz (interquartile range) qd mit

die die Länge des um den Median symmetrischen Intervalls angibt, in dem 50 % der Beobachtungen liegen. Die Spannweite (range) R gibt den Abstand zwischen größtem und kleinstem Merkmalswert an:

Der einfachste Box-(und whisker-)Plot besteht aus einem Kasten (Box) mit den vertikalen Begrenzungslinien unteres  bzw. oberes Quartil  und dem Median  als innere Linie sowie den Verbindungslinien (wkiskers, Schnurrbarthaare) von den Quartilen zu den entsprechenden Extremwerten.
Bei einem verfeinerten Box-(und whisker-)Plot werden die Verbindungslinien nur bis zum äußersten Wert gezogen, der

Die Grenzen  und  heißen innere Zäune des Box-Plots, die Punkte zwischen Box und inneren Zäunen Anrainer. Alle Punkte, die jenseits der Verbindungslinien liegen, heißen Außenpunkte oder Ausreißer und werden mit "" gekennzeichnet. Fernpunkte sind Punkte, die Die Grenzen  und  heißen äußere Zäune des Box-Plots. Fernpunkte werden in Box-Plots mit "" gekennzeichnet oder als Wert extra angegeben.


next up previous
Next: Bivariate Merkmale Up: Deskriptive Statistik Previous: Grundbegriffe