Standardabweichung

Oft interessiert nicht nur der Mittelwert, sondern auch die Streuung um diesen Mittelwert, also wie weit die Werte von dem Mittelwert entfernt sind. Je breiter die Streuung, desto weniger aussagekräftig ist das arithmetische Mittel. Die Streuung wird gemessen mit einer Art durchschnittlichen Abweichung vom Mittelwert. Wir nehmen also unser arithmetisches Mittel und berechnen dann das arithmetische Mittel der Abweichungen. Doch wie funktioniert das genau? Man könnte theoretisch alle Abweichungen summieren und dann durch die Anzahl der Abweichungen dividieren. Allerdings würde das in der Regel nicht funktionieren, weil manche Abweichungen oberhalb und andere Abweichungen unterhalb des Mittelwerts liegen, und Letztere hätten einen negativen Wert.

Schauen wir uns das am Beispiel der Altersverteilung an einer Universität an:

Normal Distribution AgesDer Mittelwert liegt bei 23, ebenso wie der Median. Wir haben also annähernd eine Normalverteilung (an dieser Uni gibt es keine Langzeitstudierende, dafür aber ein paar Überflieger, die schon mit 15 beginnen zu studieren). Jemand, der 20 ist, hat eine Abweichung von -3, jemand mit 21 Jahren eine Abweichung von -2 usw. Wir haben also neben den positiven Abweichungen auch negative Abweichungen. Die Summe der Abweichungen wäre auf jeden Fall keine Summe der positiven Zahlen, sondern wäre minimiert durch die Abweichungen, die im negativen Bereich sind.

Dieses Problem wird mit einem kleinen Trick umgangen. So werden einfach erstmal alle Abweichungen quadriert, so dass negative Vorzeichen entfallen, und dann werden sie durch die Anzahl der Werte geteilt. Aus dem ersten Wert -3 wird also 9 usw. Natürlich geht dann die ursprüngliche Maßeinheit (Länge, Gewicht, Minuten) verloren, aber zumindest haben wir einen neuen Wert, die Varianz. Die Varianz ist die quadrierte Abweichung. Ziehen wir nun die Wurzel aus der Varianz, so sind wir wieder bei der ursprünglichen Maßeinheit und haben die Standardabweichung. Das klingt leicht seltsam (“Die Standardabweichung ist die Wurzel aus der Summe der quadrierten Abweichungen der Elemente von dem arithmetischen Mittel geteilt durch die Anzahl der Elemente”), aber es geht erst mal nur darum, das negative Vorzeichen loszuwerden. Die Standwardabweichung in unserem Beispiel liegt bei 2.

Aber warum ist eine Standardabweichung nun interessant? Je höher die Standardabweichung ist, desto breiter ist die Streuung, desto mehr Werte sind weiter von dem Mittelwert entfernt. Mit nur zwei Zahlen, dem Mittelwert und der Standardabweichung weiß ich nun schon ungefähr, wie breit die Glocke in einer Normalverteilung ist. Aber wir wissen noch mehr. Denn rund 68% aller Werte liegen im Bereich von plus/minus einer Standardabweichung, rund 95% aller Werte liegen im Bereich von plus/minus zwei Standardabweichungen (um genau zu sein liegen sie innerhalb von plus/minus 1.96 Standardabweichungen).

Wichtig: Die Standardabweichung ist weniger aussagekräftig, wenn wir keine Normalverteilung haben. Schauen wir uns mal die Verteilung für einen Datenanalyse-Kurs an:

Der Mean liegt bei 23.95, der Median bei 23, die Standardabweichung bei 4,047. In diesem Fall wäre Mean minus Standardabweichung bei unter 20, allerdings ist der Mittelwert und somit auch die Standardabweichung verzerrt durch die Ausreißer rechts.

Ein Ansatz in einem solchen Fall ist die Verwendung der Median Absolute Deviation, die bei 2,9652 liegt. Wir hätten damit 15 der 19 Teilnehmer erfasst und würden alle über 27 als Ausreißer ansehen. Allerdings ist die Median Absolute Deviation auch nicht unkritisch zu sehen.

Wichtig zu merken ist, dass die Standardabweichung bei einer Normalverteilung elementar ist, um die Breite der Streuung zu identifizieren, und dass 95% aller Elemente innerhalb von knapp 2 Standardabweichungen liegen.