Warum Neue und Wiederkehrende Besucher in Google Analytics manchmal mit Vorsicht zu genießen sind

Google Analytics kann mitunter fies sein, denn manche Dimensionen gepaart mit Segmenten verhalten sich nicht so, wie man das zunächst denken mag. Dank Michael Janssens und Maik Bruns‘ Kommentare auf meine Frage in der von Maik gegründeten Analyse-Gruppe kann ich heute beruhigt schlafen gehen und bin wieder ein bisschen schlauer geworden.

Die Frage kam heute im Analytics-Kurs auf: Wie kann es sein, dass ich mehr Neue Nutzer als Transaktionen habe, wenn ich in dem Segment “Hat einen Kauf getätigt” bin? Den Link zum Bericht gibt es hier, die Annahme, die ich hatte, war die: Wenn ich ein Segment von Nutzern habe, die einen Kauf getätigt haben, und dieses Segment im Bericht “Neue vs. wiederkehrende Nutzer” verwende, dann gehe ich davon aus, dass ich in dem Bereich Neue Besucher + Haben einen Kauf getätigt nur die Nutzer sehe, die in ihrem ersten Besuch etwas gekauft haben. Allerdings sehen wir hier in diesem Bericht 691 Nutzer, aber nur 376 Transaktionen. Wenn meine Erwartungshaltung stimmen würde, dann müsste die Zahl hier gleich sein. Ist sie aber nicht. “Warum Neue und Wiederkehrende Besucher in Google Analytics manchmal mit Vorsicht zu genießen sind” weiterlesen

Datengetriebene Personas mit Assoziationsregeln

Über Personas habe ich mich ja schon an anderer Stelle ausgelassen, in diesem Artikel geht es um die datengetriebene Generierung von Personas. Ich halte mich an die Definition des Persona-Erfinders Cooper und sehe eine Persona als Prototyp für eine Gruppe von Nutzern. Dies kann auch fürs Marketing interessant sein, denn schließlich lässt dich damit eine bedürfnis- und erfahrungsorientierte Kommunikation zum Beispiel auf einer Webseite erstellen. Personas sind keine Zielgruppen, aber dazu an anderer Stelle mehr. “Datengetriebene Personas mit Assoziationsregeln” weiterlesen

Über diesen Kurs

Das Ziel dieses Kurses ist nicht, die Bedienung von Tools wie Google Analytics, Adobe Analytics, der Google Webmaster Console oder den Umgang mit Machine Learning-Algorithmen zu vermitteln. Vielmehr geht es darum, die Kompetenz zu vermitteln, wie an analytische Probleme herangegangen wird. Die Werkzeuge sind nur ein Mittel zum Zweck. Nicht umsonst heißt es:

A fool with a tool is still a fool.

Die Bedienung eines Tools kann man schnell ergooglen, den Denkansatz aber nicht. Und der ist viel wichtiger als genau zu wissen, welche Dimension mit welcher Metrik in einem Tool miteinander verbunden werden kann oder wie die Formel für einen bestimmten Algorithmus genau aussieht. Denn die Tools entwickeln sich schnell weiter, so dass jedes Wissen über das Tool veraltet ist, bevor der Kurs abgeschlossen wird. Der Denkansatz aber wird sehr wahrscheinlich auf absehbare Zeit gleich bleiben. Wir werden uns auch nicht nur Webanalyse-Daten ansehen, denn viele Fragen lassen sich nur durch die Verknüpfung verschiedener Daten beantworten.

Für die Herangehensweise an analytische Probleme werden in diesem Kurs Statistik-Grundlagen vermittelt. Dabei wird darauf geachtet, dass nicht stumpf Statistik-Wissen mit Formeln eingetrichtert wird, sondern vor allem die Wissensbereiche, die elementar für die Analyse von Daten im Webanalyse und drumherum sind. Die Webanalyse wird noch viel zu häufig ohne diese Grundlagen durchgeführt, doch spätestens wenn sich eine Datenanalyse nicht nur auf reine Webanalyse-Daten bezieht, ist Statistikwissen notwendig. Mit diesen Grundlagen gewappnet schnuppern wir in die ersten Bereiche des derzeit gehypten Bereichs Data Science hinein.

Wir werden uns vorrangig mit Google Tools beschäftigen, nicht weil diese unbedingt besser sind, sondern weil viele davon kostenlos verfügbar sind und deswegen auch einfach ausprobiert werden können. Die in dem Kurs vermittelten Kenntnisse sollten ausreichen, um die Google Analytics Individual Qualification zu bestehen und für die Zertifizierung der Digital Analytics Association vorbereitet zu sein.

Nächster Abschnitt: Einführung

Analyse, Analytics, Statistik, Data Science – Was denn jetzt?

Zunächst einmal: Nicht alle dieser Begriffe sind eindeutig definiert. Klar definiert ist das Gebiet der Statistik, das Merriam-Webster als

a branch of mathematics dealing with the collection, analysis, interpretation, and presentation of masses of numerical data

bezeichnet. Borz formuliert in seinem Standardwerk:

Statistik ist ein wichtiger Bestandteil empirisch-wissenschaftlichen Arbeitens, der sich mit der Zusammenfassung und Darstellung von Daten befasst. Darüber hinaus stellt die Statistik den empirischen Wissenschaftlern Verfahren zur Verfügung, mit denen objektive Entscheidungen über die Brauchbarkeit von wissenschaftlichen Hypothesen getroffen werden können.

Analysis (also Analyse im Deutschen) wird im Merriam-Webster als

a detailed examination of anything complex in order to understand its nature or to determine its essential features; a thorough study, doing a careful analysis of the problem

definiert, wobei dann Analytics

the method of logical analysis

ist. Manche interpretieren daraus, dass sich Analysis mit der Vergangenheit beschäftigt und Analytics mit dem “Warum?” und der Zukunft, aber dies ist keine allgemein abgesicherte Sicht. Eine andere Sicht ist die, dass sich Analytics keiner Null-Hypothesen bedient und stattdessen Machine Learning verwendet, um etwas Sinnvolles aus Daten zu gewinnen. Auch diese Meinung ist nicht abgesichert. Man könnte Analytics auch als Mini-Statistik verstehen, in der nur Teilbereiche angewandt werden, die in der Geschäftswelt am meisten benötigt werden. Schließlich kann man Statistik studieren, und nicht jeder kann sich als Statistiker bezeichnen. Der Begriff Analytics hingegen ist weder definiert noch geschützt. Jeder kann sich als Analytics-Experte bezeichnen.

Webanalyse / Web Analytics wird von der DAA wie folgt definiert (und wir gehen davon aus, dass die DAA als Autorität das Recht hat, das Gebiet der Webanalyse zu definieren):

Web Analytics is the measurement, collection, analysis and reporting of Internet data for the purposes of understanding and optimizing Web usage.

Wir sehen hier eine Ähnlichkeit mit der Definition von Statistik: Collection, Analysis, reporting/presentation. Der Unterschied hier ist, dass sich die Webanalyse auf Internet-Daten beschränkt, und wie wir später sehen werden ist die Web Analyse zum Teil noch unerklärlich weit entfernt von den Methoden der Statistik. Dies könnte daran liegen, dass Web Analytics ein noch relatives junges Feld ist. Schließlich musste erst einmal das World Wide Web geboren werden, um überhaupt etwas zu analysieren zu haben. Dabei waren die Anfangstage vor allem durch das Auswerten von Logdateien geprägt, was in der Regel vom Server-Administrator vorgenommen wurde. Von Datenanalysten war hier noch keine Spur. Erst durch die zunehmende Technologisierung des Marketings sind die Anforderungen an Analysten gestiegen, denn je mehr Geschäfte über das Netz abgewickelt werden, desto belastbarer müssen die Annahmen sein, die erstellt werden.

Die Web-Analyse sollte aber nicht als zukünftige Teilmenge der Statistik begriffen werden, denn im Web ist zusätzliches technisches Wissen notwendig. Online Marketing ist mit den Jahren zunehmend komplexer geworden, und nur wer versteht, wie etwas gemessen wird, kann korrekte Aussagen treffen. Gleichzeitig fehlt manchem Gelegenheits-Web-Analysten ein fundiertes statistisches Wissen, zum Beispiel um die Daten in einem Web Analyse-System richtig zu interpretieren oder um saubere Experimente aufzusetzen. Genau diese Lücke wird in diesem Kurs geschlossen, denn neben den statistischen Grundlagen wird auch das technische Wissen vermittelt. Dies ist umso notwendiger, da mehr und mehr Offline-Daten in die Webanalyse-Systeme importiert werden können oder Webanalyse-Daten in andere Systeme integriert und dort analysiert werden.

Der letzte zu klärende Begriff ist Data Science. Auch hier existiert keine allgemein akzeptierte Definition, aber man könnte hierunter die Überschneidung beziehungsweise den interdisziplinären Einsatz von Data Mining, Datenanalyse und Machine Learning verstehen. Provost und Fawcett beschreiben Data Science wie folgt:

Data science involves principles, processes, and techniques for understanding phenomena via the (automated) analysis of data.

Pierson definiert:

Data Science is the computational science of extracting meaningful insights from raw data and then effectively communicating those insights to generate value.

Provost und Fawcett die Begriffe „Data Science“ und „Data Mining“ fast austauschbar, wobei Data Mining in ihrer Definition nicht erwähnt wird. Gleichzeitig verweisen sie darauf, wie jung dieses Feld noch ist und die heutigen Data Scientists in mehreren Gebieten bewandt sein müssen:

The particular concerns of data science are fairly new and general principles are just beginning to emerge. The state of data science may be likened to that of chemistry in the mid-19th century, when theo- ries and general principles were being formulated and the field was largely experimental. Every good chemist had to be a competent lab technician. Similarly, it is hard to imagine a working data scientist who is not proficient with certain sorts of software tools.

Um Daten automatisiert auswerten zu können, wird ein Statistik-Grundwissen vorausgesetzt. Eine Schnittmenge zwischen dem klar definierten Bereich der Statistik und dem noch schwammigen Bereich der Data Science ist also erkennbar. Da Web Analyse und Statistik auch Überschneidungen haben (sollten), kann Data Science im Web Analyse-Bereich somit als die automatisierte Analyse zur Identifikation und dem Verständnis von Internetdaten definiert werden. Im Hinblick auf Piersons Definition wird aber auch gleich eine weitere Schwäche der Web Analysten deutlich: Sie verwenden häufig aggregierte Daten, keine Rohdaten. Tatsächlich sind viele Web Analysten auch keine Programmierer, die Algorithmen zur Auswertung von Daten konzipieren könnten. Und wie oben festgestellt, fehlen ihnen auch häufig die Statistik-Grundlagen.

Das Ziel dieses Kurses ist, die Brücke zwischen den einzelnen Disziplinen zu schlagen und sowohl Grundkenntnisse in Statistik als auch technische Kompetenz sowie Data Science-Ansätze zu vermitteln. Das Tolle an Web Analytics-Daten ist, dass jeder schon mal auf einer Webseite war und somit auch nachvollziehen kann, was für Daten gesammelt werden können.

Nächster Abschnitt: Das Business Problem verstehen

Digital Analytics

Dies ist die Seite zum Kurs (Digital) Analytics an der HAW und der bmk. Die Data Science-Themen werden an der bmk nur teilweise behandelt. Die Lernfelder der bmk sind in grün ergänzt)

  1. Über diesen Kurs
  2. Einführung
    1. Eine kleine Daten-Geschichte
    2. Datenschutz
    3. Keine Angst vor Daten!
    4. Analyse, Analytics, Statistik, Data Science – Was denn jetzt?
  3. Das Business-Problem verstehen (Lernfeld 2)
    1. Von Zielen zu KPIs
    2. Von Daten zur Handlungsrelevanz
    3. Der Daten-Analyse-Prozess
  4. Die Datenakquise
    1. Generelle Methoden
      1. Umfragen
      2. Experimente
      3. Offene Datenquellen (z.B. Google Trends)
    2. Tracking (Lernfeld 6)
      1. Server Log Files
      2. Pixels/Tagging
      3. Cookies
      4. Tag Management
      5. Mehr als nur Pageviews: Events
      6. Implementierung testen
      7. Eine kleine Checkliste
      8. Erweiterte Tracking-Ansätze
  5. Die Analyse
    1. Grundlagen der Analyse in der GUI von Google Analytics (Lernfeld 5)
      1. Echtzeit
      2. Zielgruppe
      3. Akquisition
      4. Verhalten
      5. Conversions
      6. Attribution
    2. Statistik (Lernfeld 12d)
      1. Arithmetisches Mittel, Median und Modus
      2. Verteilungen
      3. Standardabweichung
      4. Stichprobenverteilung des Mittelwerts
      5. Standardfehler und Konfidenzintervall
      6. Wie groß muss ein Sample sein?
    3. Daten-Analyse mit R (Lernfeld 8)
      1. Erste Schritte mit R und RStudio
      2. Grundlegendes R-Wissen
      3. Das Tidyverse
      4. Abfrage der Google Analytics Reporting API
      5. Attribution mit R berechnen
      6. Regressionsanalyse
      7. Machine Learning: Persona-Erstellung mit Association Rules
  6. Das Modellieren und Testen (Lernfeld 12d)
      1. Erstellen einer Hypothese
      2. Umsetzung in Google Optimize
      3. Analyse der Test-Ergebnisse (Lernfeld 9)
      4. Personalisierung
  7. Das Kommunizieren von Ergebnissen (bisher in keinem Lernfeld vorhanden, aber sollte im Lehrplan ergänzt werden)
    1. Visualisierung von Daten
    2. Actionable Insights
  8. Literatur
  9. Glossar

What is Data Science?

There is no official definition of Data Science (similar to “Big Data”); we will regard data science as the combination of different disciplines: data mining, statistics and machine learning in order to derive information from data automatically. Whilst many of the approaches used in these fields have existed for a long time already, more and more free programming libraries, cheap computing time and storage space (e.g. from AWS) as well as more available data due to the new online world have been enabling more people to use the power of coping with huge amounts or complex data.

Data Analytics or Data Analysis can be regarded as a subset of Data Science, setting the focus on the analysis of data. Being very similar to statistics, the term “data analysis” is sometimes regarded as old wine in new bottles. The existence of huge and complex data, often termed as “big data”, is not required for data analysis. Most often, quality is more restricting than quantity. In fact, there is no official definition of “big data”, and just because it is “a lot of data”, it should still not be called “Big” data. Some people even say, there is no thing such as big data.

 

Warum die durchschnittliche Sitzungsdauer in Analytics kompletter Quatsch ist

Ich beschäftige mich seit über 20 Jahren mit Webanalyse, angefangen mit Serverlogfiles und heute mit zum Teil abgefahrenen Implementierungen von Tracking-Systemen. Die Möglichkeiten werden immer besser, aber nicht alles ist besser geworden. Denn ein Aberglaube ist einfach nicht totzukriegen, nämlich dass Time on Site oder die “durchschnittliche Sitzungsdauer” eine gute Metrik ist, beziehungsweise dass die angegebenen Werte überhaupt stimmen, Darum hier einmal schwarz auf weiß: In einer Standardimplementierung wird die Time on Site nicht richtig gemessen, egal ob in Adobe Analytics oder Google Analytics oder Piwik oder sonstwas.  “Warum die durchschnittliche Sitzungsdauer in Analytics kompletter Quatsch ist” weiterlesen