Dieses Beispiel stammt aus den Materialien zum Buch Einführung in die Webanalyse.

Zunächst einmal generieren wir einen Vektor mit den Alters-Werten der Studenten:

students_ages <- c(20,21,23,24,22,23,23,25,23,24,23,22,26,23,53)

Wir schauen uns dazu dann Statistiken an:

summary(students_ages)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    20.0    22.5    23.0    25.0    24.0    53.0

Der Durchschnitt liegt bei 25, der Median bei 23. Nun plotten wir die Daten in ein Histogramm:

hist(students_ages, breaks=60, main="Histogram of Student Age", xlab = "Age")

Der Aurreißer des älteren Studenten ist deutlich zu sehen. Wir schauen uns die Daten noch einmal ohne diesen Ausreißer an:

students_ages_without_outlier <- students_ages[1:14]
summary(students_ages_without_outlier)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   20.00   22.25   23.00   23.00   23.75   26.00

Median und Durchschnitt sind nun gleich.

hist(students_ages_without_outlier, breaks=10, main="Histogram of Student Age", xlab = "Age")

Das zeigt sich auch im Histogramm, wo wir eher zu einer Normalverteilung kommen.

sd(students_ages)
## [1] 7.883074

Die Standardabweichung mit den Daten des ursprünglichen Datensatzes ergibt wenig Sinn. Anders sieht es bei dem bereinigten Datensatz aus:

sd(students_ages_without_outlier)
## [1] 1.519109