Dieses Beispiel stammt aus den Materialien zum Buch Einführung in die Webanalyse.
Zunächst einmal generieren wir einen Vektor mit den Alters-Werten der Studenten:
students_ages <- c(20,21,23,24,22,23,23,25,23,24,23,22,26,23,53)
Wir schauen uns dazu dann Statistiken an:
summary(students_ages)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 20.0 22.5 23.0 25.0 24.0 53.0
Der Durchschnitt liegt bei 25, der Median bei 23. Nun plotten wir die Daten in ein Histogramm:
hist(students_ages, breaks=60, main="Histogram of Student Age", xlab = "Age")
Der Aurreißer des älteren Studenten ist deutlich zu sehen. Wir schauen uns die Daten noch einmal ohne diesen Ausreißer an:
students_ages_without_outlier <- students_ages[1:14]
summary(students_ages_without_outlier)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 20.00 22.25 23.00 23.00 23.75 26.00
Median und Durchschnitt sind nun gleich.
hist(students_ages_without_outlier, breaks=10, main="Histogram of Student Age", xlab = "Age")
Das zeigt sich auch im Histogramm, wo wir eher zu einer Normalverteilung kommen.
sd(students_ages)
## [1] 7.883074
Die Standardabweichung mit den Daten des ursprünglichen Datensatzes ergibt wenig Sinn. Anders sieht es bei dem bereinigten Datensatz aus:
sd(students_ages_without_outlier)
## [1] 1.519109