Schlagwort: statistik

Standardabweichung

Oft interessiert nicht nur ein Mittelwert, sondern auch die Streuung um diesen Mittelwert, also wie weit Werte von dem Mittelwert entfernt sind. Was wäre zum Beispiel eine durchschnittliche Abweichung von diesem Mittelwert? Man könnte ja theoretisch alle Abweichungen summieren und dann durch die Anzahl der Abweichungen dividieren. Allerdings würde das in der Regel nicht funktionieren, weil manche Abweichungen oberhalb und andere Abweichungen unterhalb des Mittelwerts liegen, und Letztere hätten einen negativen Wert. Summierte man diese Werte nun, so würden die negativen Werte die positiven Abweichungen vermindern, und es käme kein Durchschnitt heraus. Noch mal am Beispiel unseres Kurses:

22
26
27
21
22
22
20
20
25
21
21
21
25
46

Der Mittelwert ist 24,21, so dass der erste Wert in der Liste eine Abweichung von -2,21 hat, der zweite eine Abweichung von 1,79, der dritte eine Abweichung von 2,79 usw. Wir haben negative und positive Abweichungen. Die Summe der Abweichungen wäre auf jeden Fall keine Summe der positiven Zahlen, sondern wäre minimiert durch die Abweichungen, die im negativen Bereich sind. Daraus entsteht kein Durchschnitt.

Dieses Problem wird mit einem kleinen Trick umgangen. So werden einfach erstmal alle Abweichungen quadriert, so dass negative Vorzeichen entfallen, und dann werden sie durch die Anzahl der Werte geteilt. Aus dem ersten Wert -2,21 wird also 4,8841 usw. Schade nur, dass dann die ursprüngliche Maßeinheit (Länge, Gewicht, Minuten) verloren geht, aber zumindest haben wir einen neuen Wert, die Varianz. Die Varianz ist die quadrierte Abweichung. Ziehen wir nun die Wurzel aus der Varianz, so sind wir wieder bei der ursprünglichen Maßeinheit und haben die Standardabweichung. Das klingt leicht seltsam (“Die Standardabweichung ist die Wurzel aus der quadrierten Abweichung geteilt durch die Anzahl der Elemente”), aber es geht nur darum, das negative Vorzeichen loszuwerden. Die Formel dazu sieht so aus:

Standardabweichung

Neben dieser Formel existiert eine zweite Formel, und zwar:

Standardabweichung der Stichprobe

Der Unterschied besteht darin, dass von der Anzahl der Elemente der Wert 1 abgezogen wird. Man bezeichnet diese zweite Standardabweichung auch als Standardabweichung der Stichprobe, d.h. sie wird auf Stichproben angewendet, wohingegen die erste Formel die Standardabweichung der Gesamtpopulation ist.

Aber warum ist eine Standardabweichung nun interessant? Je höher die Standardabweichung ist, desto breiter ist die Streuung, desto mehr Werte sind weiter von dem Mittelwert entfernt. Mit nur zwei Zahlen, dem Mittelwert und der Standardabweichung weiß ich nun schon ungefähr, wie breit die Glocke in einer Normalverteilung ist. Aber wir wissen noch mehr. Denn rund 68% aller Werte liegen im Bereich von plus/minus einer Standardabweichung, rund 95% aller Werte liegen im Bereich von plus/minus zwei Standardabweichungen. Wenn ich also einen Wert sehe (z.B. wie lange ein Nutzer benötigte, um eine Seite zu lesen, so kann ich einordnen, inwieweit dieser Nutzer zur Mehrheit gehört oder nicht. Aber wir können damit noch mehr anfangen, wie wir im nächsten Abschnitt sehen werden.

Filed under: Data ScienceTagged with: