Arithmetisches Mittel, Median und Modus

Das arithmetische Mittel

Mit dem Durchschnitt wird häufig das arithmetische Mittel gemeint, welches nur einen von mehreren Mittelwerten darstellt (im Englischen wird das arithmetische Mittel als “Mean” bezeichnet). Auch in Google Analytics und allen anderen Web Analyse-Systemen wird meistens nur das arithmetische Mittel angezeigt, obwohl das zu Fehlinterpretationen führen kann. So ist das arithmetische Mittel anfällig für Ausreißer, wie in dem folgenden Beispiel sehen können:

In einem kleinen Kurs mit fünf Studenten und einem Lehrbeauftragten wird das Durchschnittsalter berechnet, also das arithmetische Mittel. Das Durchschnittsalter beträgt 26 Jahre. Wäre der Lehrbeauftragte nicht in die Rechnung einbezogen, so läge das Durchschnittsalter bei 22. Der Lehrbeauftragte ist ein Ausreißer in Bezug auf sein Alter; er zieht das arithmetische Mittel nach oben.

Der Median

Der Median ist der mittlere Wert, wenn man alle Daten nach ihrem Wert sortiert. In unserem Beispiel sieht das so aus:

Da wir eine gerade Anzahl von Elementen haben, gibt es nicht eine Zahl in der Mitte, sondern zwei. Hier werden beide Zahlen summiert und das Ergebnis durch 2 geteilt. Der Median beträgt 22; er ist also weniger beeinflusst von dem Ausreißer.

Der Modus

Der Modus ist der häufigste Wert:

In unserem Beispiel ist der Modus 21. Der Modus kann aber noch mehr: So könnte es mehr als einen Modus geben, wenn zum Beispiel zwei Studenten 25 wären und zwei Studenten 21. Außerdem funktioniert der Modus auch mit kategorischen Daten. Wenn 2 der Studenten Männer wären und 3 Frauen, so könnten wir kein arithmetisches Mittel bilden, und einen Median auch nicht. Aber wir können die Elemente in den Kategorien zählen.

Warum ist das wichtig?

Schauen wir uns noch einmal das Zielgruppe-Dashboard aus Google Analytics an:

Die durchschnittliche Anzahl von Seiten pro Session liegt hier bei 1,71. Im Durchschnitt schauen sich die Nutzer also mehr als eine Seite an. Oder?

Tatsächlich ist das arithmetische Mittel hier irreführend, wie wir an dem folgenden Histogramm erkennen können:

Histogramm Seiten pro SessionWir sehen, dass sich tatsächlich die meisten Nutzer nur eine Seite ansehen. Ein Nutzer hat sich 54 Seiten in einer Session angesehen, und natürlich hebt auch er den Durschnitt an. Der Median für diesen KPI liegt bei 1, so dass wir aus einer Kombination von Median und Mean bereits erkennen können, dass es Ausreißer geben muss. Diese Information wird in dem Dashboard von Google Analytics (und jedem anderen Web Analyse-System) vorenthalten, lediglich unter einem versteckten Unterpunkt ist ein verdrehtes Histogramm zu finden, dass die Informationen ähnlich aufbereitet.

Der Vorteil am arithmetischen Mittel ist, dass es in einer Zahl Informationen verdichten kann. Der große Nachteil ist, dass er alleine nichts über die Verteilung der Werte aussagt und dementsprechend zu Fehlinterpretationen führen kann.

Nächster Abschnitt: Verteilungen