Verteilungen

Wir haben im vorherigen Abschnitt über Mean, Median und Modus schon kurz den Begriff der Verteilung angeschnitten: Haben wir sowohl Mean als auch Median, so können wir schon ein bisschen was über die Verteilung aussagen, was an dem folgenden Beispiel deutlich wird:

In einer Normalverteilung liegen Mean, Median und Mode an derselben Stelle. In einer rechtsschiefen Verteilung wie im zweiten Bild, liegen sie nicht an derselben Stelle: Der Mode bei den häufigsten Werten, der Median bei den Werten in der Mitte, und das Mean durch die Ausreißer rechts von Modus und Median.

Denken wir nun noch einmal an das Zielgruppen-Dashboard von Google Analytics zurück. Wir haben hier Durchschnittswerte für

  • Seiten pro Session
  • Sessions pro Nutzer
  • Verweildauer

Hier wird der Mean genutzt, aber wir wissen in diesem Dashboard nichts über die Verteilung dieser Werte. Daher wissen wir auch nicht, wie aussagekräftig der Mean allein als Kennwert für die zentrale Tendenz einer Verteilung ist. Wie wir im vorherigen Abschnitt gesehen haben, kann er uns zu Fehlinterpretationen verleiten.

Umgekehrt können wir nicht davon ausgehen, dass wir nie eine Normalverteilung bei den oben genannten KPIs haben werden. Der Mean kann also, muss aber nicht aussagekräftig sein, so dass den Werten in diesen Dashboards zunächst misstraut werden sollte. Dies ist auch ein Grund, warum daten-getriebene Unternehmen eher selbst mit den Rohdaten von Google Analytics & Co arbeiten als dass sie die GUI nutzen, da sie dann selbst entscheiden können, welche die richtigen Maßzahlen sind.

Nächster Abschnitt: Standardabweichung