data > opinion

Tom Alby

4 Analyse

2020-02-22


Sie sind hier: start / lehrveranstaltungen / digital analytics / 04 analyse /

Grundlegende Konzepte

Datenreinigung und Transformation

Vor der Analyse steht in der Regel die Datenreinigung, manche sehen sie auch als Teil der Analyse, daher wird sie hier erwähnt. Je nach Schnittstelle werden hierfür verschiedene Schritte gewählt, sei es Ausreißer zu identifizieren und aus den Daten zu entfernen, sei es um Datensätze zu bereinigen, die ansonsten zu falschen Interpretationen führen.

Beispiel: Es werden die Rohdaten von Nutzeranfragen untersucht, und einige der Nutzer haben keine eigene „unique“ ID erhalten, sondern lediglich ein FALSE. Untersuchte man nun alle Nutzer ohne diese Datensätze mit FALSE zu entfernen, so gäbe es einen neuen Nutzer namens FALSE, und alle der Aktionen verschiedener Nutzer, die keine eigene ID hatten, werden diesem Nutzer zugeschrieben. Daher würden diese Nutzer mit der ID FALSE entfernt werden, es sei denn, es kann ihnen noch durch eine andere Methode eine eindeutige ID zugeordnet werden.

Manche Daten stehen nicht in einem Format zur Verfügung, das für die Analyse zweckmäßig ist. In solchen Fällen müssen die Daten transformiert werden. Auch die Transformation wird von manchen als Teil der Analyse gesehen. In dem Abschnitt über die Analyse mit R werden Methoden zur Datentransformation vorgestellt.

Zwar wurden hier vorrangig Rohdaten erwähnt, aber auch die Daten in der Google Analytics GUI sind nicht immer sauber (tatsächlich sind die Daten ja gleich, d.h. wenn wir in den Rohdaten Unstimmigkeiten entdecken, so sind die auch in der GUI vorhanden).

Dimensionen und Metriken

Merkmale von Daten werden in Google Analytics Dimensionen genannt. Beispiel: Ein Nutzer (die statistische Einheit, die uns interessiert) hat das Merkmal Stadt, in der er sich gerade befindet und aus der er eine Webseite abruft. Die Stadt ist zum Beispiel Wanne-Eickel, und Wanne-Eickel ist somit die Ausprägung des Merkmals Stadt. Ein anderer Nutzer kommt vielleicht aus Oer-Erkenschwick, seine Ausprägung des Merkmals Stadt ist somit Oer-Erkenschwick. Wollen wir nun wissen, wie viele Nutzer (Users) aus welchen Städten kommen, so nutzen wir die Metrik Users für das Merkmal bzw. die Dimension City. Metriken sind sozusagen die Einheiten, in denen wir zählen wollen.

Dimensionen und Metriken/Messwerte sind ein grundlegendes Konzept von Google Analytics (und auch anderen Web Analyse-Systemen), und es lohnt sich, dieses Konzept zu verstehen, bevor wir tiefer in die Materie eintauchen.

Grundlagen der Analyse in der GUI von Google Analytics

Über Google Analytics

Google Analytics ist eines der beliebtesten Web Analytics Systeme, nicht zuletzt weil es einen unschlagbaren Funktionsumfang bereits in der kostenlosen Variante bietet. Tatsächlich wird Google Analytics in zwei Varianten angeboten, eine kostenlose Version, die bis zu 10 Millionen Zugriffe genutzt werden kann, und eine Premium-Version, die mit 150.000 US-Dollar (2016) beginnt, abhängig von der Anzahl der Zugriffe auf die Google Analytics-Server.

Zugriffe sind Hits, die an den Google Analytics-Server gesendet werden. Das passiert beim Pageview, aber auch zum Beispiel beim Auslösen eines Events. 10 Millionen Hits sind zum Beispiel übertroffen, wenn eine Seite jeden Tag 10.000 Nutzer hat, von denen jeder 6 Seiten aufruft, auf denen dann jeweils 5 Events und 1 Pageview ausgelöst werden.

Der Unterschied zwischen den beiden Versionen besteht nicht nur im Traffic, sondern auch in einigen Features: Die kostenlose Version bietet nur aggregierte Daten, während die Premium-Version den Download von Rohdaten ermöglicht (tatsächlich kann man auch mit der kostenlosen Version so etwas wie Rohdaten erhalten); auch die anspruchsvollsten Features wie datengesteuerte Attributionsmodelle sind nur in der Premium-Version verfügbar. Da Google Analytics frei verfügbar ist, gibt es viele Schulungsressourcen im Web. Die Gemeinschaft ist riesig. Google hat Google Analytics nicht erfunden, das Produkt ist das Ergebnis der Übernahme von Urchin im Jahr 2005. Kurz darauf wurde die kostenlose Version von Google Analytics geboren.

GUI versus API

Die GUI (Graphical User Interface) von Google Analytics ist ein Weg, Daten aus Google Analytics zu analysieren. Ein anderer Weg ist die API (Application Programming Interface), über die Daten über eine maschinelle Schnittstelle abgefragt werden können. Wir beschäftigen uns in diesem Abschnitt zunächst mit der GUI.

Zugriff auf den Google Merchandising Demo Store

Für den Kurs (wie für fast alle Google Analytics-Kurse auf der Welt) wird das Google Analytics-Demokonto des Merchandising Stores verwendet. Bitte verwenden Sie die Anleitung aus diesem Google Hilfe-Artikel, um Zugriff auf das Demokonto zu erhalten. Dafür wird ein (kostenloses) Google-Konto benötigt.

Die 5 Bereiche der GUI

Die Google Analytics-GUI ändert sich ständig, so dass eine ausführliche Erklärung der Oberfläche nur eine geringe Halbwertzeit hätte. Google bietet außerdem mittlerweile gute Einführungen in die jeweiligen Tools. Die Aufgabe dieses Abschnitts kann daher nur sein, ein Grundverständnis der Ansätze der GUI zu bieten. Grundsätzlich kann man die GUI in 5 Abschnitte unterteilen:

  • Echtzeit: Was passiert gerade jetzt auf meiner Webseite?
  • Zielgruppe: Wer sind meine Nutzer?
  • Akquisition: Woher kommen meine Nutzer?
  • Verhalten: Was tun sie auf meiner Seite?
  • Conversions: Erreiche ich die Ziele, die ich mir gesetzt habe?

Behält man diese Einteilung im Kopf, so erleichtert sie die Suche nach Informationen in der GUI. Leider ist die Einteilung nicht immer ganz eindeutig, so gibt es auch unter dem Bereich Zielgruppe einen Unterbereich Verhalten (Stand Oktober 2018).

Statistik

Der Kurs kann kein Statistik-Seminar ersetzen, es werden nur elementare Grundlagen vermittelt. Es wird so weit wie möglich auf mathematische Formeln verzichtet. Für ein tieferes Studium der Statistik wird das Lehrbuch Statistik: Der Weg zur Datenanalyse (Affiliate-Link) empfohlen.

Es werden drei Teilbereiche der Statistik unterschieden:

In der Statistik und in der Datenanalyse wird ein fachspezifisches Vokabular verwendet, das nicht unbedingt mit dem Vokabular der Webanalyse kompatibel ist. Fahrmeir et al unterscheiden die folgenden elementaren Begriffe (weitere Begriffe werden während des Kurses eingeführt):

Lageparameter

Arithmetisches Mittel, Median und Modus

Mit dem Durchschnitt wird häufig das arithmetische Mittel gemeint, welches nur einen von mehreren Mittelwerten darstellt (im Englischen wird das arithmetische Mittel als „Mean“ bezeichnet). Auch in Google Analytics und allen anderen Web Analyse-Systemen wird meistens nur das arithmetische Mittel angezeigt, obwohl das zu Fehlinterpretationen führen kann. So ist das arithmetische Mittel anfällig für Ausreißer, wie in dem folgenden Beispiel sehen können:

In einem kleinen Kurs mit fünf Studenten und einem Lehrbeauftragten wird das Durchschnittsalter berechnet, also das arithmetische Mittel. Das Durchschnittsalter beträgt 26 Jahre. Wäre der Lehrbeauftragte nicht in die Rechnung einbezogen, so läge das Durchschnittsalter bei 22. Der Lehrbeauftragte ist ein Ausreißer in Bezug auf sein Alter; er zieht das arithmetische Mittel nach oben.

Der Median

Der Median ist der mittlere Wert, wenn man alle Daten nach ihrem Wert sortiert.

Der Modus

Der Modus ist der häufigste Wert:

Warum ist das wichtig?

Schauen wir uns noch einmal das Zielgruppe-Dashboard aus Google Analytics an:

Die durchschnittliche Anzahl von Seiten pro Session liegt hier bei 1,71. Im Durchschnitt schauen sich die Nutzer also mehr als eine Seite an. Oder?

Tatsächlich ist das arithmetische Mittel hier irreführend, da sich tatsächlich die meisten Nutzer nur eine Seite ansehen. Der Median für diesen KPI liegt bei 1, so dass wir aus einer Kombination von Median und Mean bereits erkennen können, dass es Ausreißer geben muss. Diese Information wird in dem Dashboard von Google Analytics (und jedem anderen Web Analyse-System) vorenthalten, lediglich unter einem versteckten Unterpunkt ist ein verdrehtes Histogramm zu finden, dass die Informationen ähnlich aufbereitet.

Der Vorteil am arithmetischen Mittel ist, dass es in einer Zahl Informationen verdichten kann. Der große Nachteil ist, dass er alleine nichts über die Verteilung der Werte aussagt und dementsprechend zu Fehlinterpretationen führen kann.