data > opinion

Tom Alby

Standardabweichung (Standard Deviation)


Sie sind hier: start / lehrveranstaltungen / glossar / standardabweichung /

Oft interessiert nicht nur der Mittelwert, sondern auch die Streuung um diesen Mittelwert, also wie weit die Werte von dem Mittelwert entfernt sind. Je breiter die Streuung, desto weniger aussagekräftig ist das arithmetische Mittel. Die Streuung wird gemessen mit einer Art durchschnittlichen Abweichung vom Mittelwert. Wir nehmen also unser arithmetisches Mittel und berechnen dann das arithmetische Mittel der Abweichungen. Doch wie funktioniert das genau? Man könnte theoretisch alle Abweichungen summieren und dann durch die Anzahl der Abweichungen dividieren. Allerdings würde das in der Regel nicht funktionieren, weil manche Abweichungen oberhalb und andere Abweichungen unterhalb des Mittelwerts liegen, und Letztere hätten einen negativen Wert.

Schauen wir uns das am Beispiel der Altersverteilung an einer Universität an:

Normal Distribution AgesDer Mittelwert liegt bei 23, ebenso wie der Median. Wir haben also annähernd eine Normalverteilung (an dieser Uni gibt es keine Langzeitstudierende, dafür aber ein paar Überflieger, die schon mit 15 beginnen zu studieren). Jemand, der 20 ist, hat eine Abweichung von -3, jemand mit 21 Jahren eine Abweichung von -2 usw. Wir haben also neben den positiven Abweichungen auch negative Abweichungen. Die Summe der Abweichungen wäre auf jeden Fall keine Summe der positiven Zahlen, sondern wäre minimiert durch die Abweichungen, die im negativen Bereich sind.

Dieses Problem wird mit einem kleinen Trick umgangen. So werden einfach erstmal alle Abweichungen quadriert, so dass negative Vorzeichen entfallen, und dann werden sie durch die Anzahl der Werte geteilt. Aus dem ersten Wert -3 wird also 9 usw. Natürlich geht dann die ursprüngliche Maßeinheit (Länge, Gewicht, Minuten) verloren, aber zumindest haben wir einen neuen Wert, die Varianz. Die Varianz ist die quadrierte Abweichung vom Mittelwert. Ziehen wir nun die Wurzel aus der Varianz, so sind wir wieder bei der ursprünglichen Maßeinheit und haben die Standardabweichung. Das klingt leicht seltsam („Die Standardabweichung ist die Wurzel aus der Summe der quadrierten Abweichungen der Elemente von dem arithmetischen Mittel geteilt durch die Anzahl der Elemente“), aber es geht erst mal nur darum, das negative Vorzeichen loszuwerden. Die Standwardabweichung in unserem Beispiel liegt bei 2.

Aber warum ist eine Standardabweichung nun interessant? Je höher die Standardabweichung ist, desto breiter ist die Streuung, desto mehr Werte sind weiter von dem Mittelwert entfernt. Mit nur zwei Zahlen, dem Mittelwert und der Standardabweichung, ist also bekannt, wie breit die Glocke in einer Normalverteilung ist. Aber wir wissen noch mehr. Denn rund 68% aller Werte liegen im Bereich von plus/minus einer Standardabweichung, rund 95% aller Werte liegen im Bereich von plus/minus zwei Standardabweichungen (um genau zu sein liegen sie innerhalb von plus/minus 1.96 Standardabweichungen).

Tags: