Analyse

Datenreinigung und Transformation

Vor der Analyse steht in der Regel die Datenreinigung, manche sehen sie auch als Teil der Analyse, daher wird sie hier erwähnt. Je nach Schnittstelle werden hierfür verschiedene Schritte gewählt, sei es Ausreißer zu identifizieren (siehe den Abschnitt über Statistik) und aus den Daten zu entfernen, sei es um Datensätze zu bereinigen, die ansonsten zu falschen Interpretationen führen.

Beispiel: Es werden die Rohdaten von Nutzeranfragen untersucht, und einige der Nutzer haben keine eigene “unique” ID erhalten, sondern lediglich ein FALSE. Untersuchte man nun alle Nutzer ohne diese Datensätze mit FALSE zu entfernen, so gäbe es einen neuen Nutzer namens FALSE, und alle der Aktionen verschiedener Nutzer, die keine eigene ID hatten, werden diesem Nutzer zugeschrieben. Daher würden diese Nutzer mit der ID FALSE entfernt werden, es sei denn, es kann ihnen noch durch eine andere Methode eine eindeutige ID zugeordnet werden.

Manche Daten stehen nicht in einem Format zur Verfügung, das für die Analyse zweckmäßig ist. In solchen Fällen müssen die Daten transformiert werden. Auch die Transformation wird von manchen als Teil der Analyse gesehen. In dem Abschnitt über die Analyse mit R werden Methoden zur Datentransformation vorgestellt.

Zwar wurden hier vorrangig Rohdaten erwähnt, aber auch die Daten in der Google Analytics GUI sind nicht immer sauber (tatsächlich sind die Daten ja gleich, d.h. wenn wir in den Rohdaten Unstimmigkeiten entdecken, so sind die auch in der GUI vorhanden).

Dimensionen und Metriken

Attribute von Daten werden in Google Analytics Dimensionen genannt (in der Statistik würde man sie Ausprägungen von Merkmalen nennen). Beispiel: Ein Nutzer (die statistische Einheit, die uns interessiert) hat das Merkmal Stadt, in der er sich gerade befindet und aus der er eine Webseite abruft. Die Stadt ist zum Beispiel Wanne-Eickel, und Wanne-Eickel ist somit die Ausprägung des Merkmals Stadt. Ein anderer Nutzer kommt vielleicht aus Oer-Erkenschwick, seine Ausprägung des Merkmals Stadt ist somit Oer-Erkenschwick. Wollen wir nun wissen, wie viele Nutzer (Users) aus welchen Städten kommen, so nutzen wir die Metrik Users für das Merkmal bzw. die Dimension City. Metriken sind sozusagen die Einheiten, in denen wir zählen wollen.

Nicht jede Dimension lässt sich mit jeder Metrik verbinden; in der Regel muss der gleiche Scope vorliegen. Der Scope kann hier Hit, Session oder User sein. Die Metrik Users hat offensichtlich den Scope User