The Joy of Data

Alles geht auf Philiosophie zurück 🙂 Und das Internet wäre ohne die Briten nicht möglich gewesen. Erinnert mich etwas an den UK-Pavilion auf der Expo 2000, in dem der iMac ausgestellt wurde. Schließlich wurde auch dieser von einem Briten, Jonathan Ive, entworfen. Ansonsten eine absolut empfehlenswerte Dokumentation, hier auf der BBC-Seite zu sehen.

Ausschnitt:

Analyse, Analytics, Statistik, Data Science – Was denn jetzt?

Zunächst einmal: Nicht alle dieser Begriffe sind eindeutig definiert. Klar definiert ist das Gebiet der Statistik, das Merriam-Webster als

a branch of mathematics dealing with the collection, analysis, interpretation, and presentation of masses of numerical data

bezeichnet. Borz formuliert in seinem Standardwerk:

Statistik ist ein wichtiger Bestandteil empirisch-wissenschaftlichen Arbeitens, der sich mit der Zusammenfassung und Darstellung von Daten befasst. Darüber hinaus stellt die Statistik den empirischen Wissenschaftlern Verfahren zur Verfügung, mit denen objektive Entscheidungen über die Brauchbarkeit von wissenschaftlichen Hypothesen getroffen werden können.

Analysis (also Analyse im Deutschen) wird im Merriam-Webster als

a detailed examination of anything complex in order to understand its nature or to determine its essential features; a thorough study, doing a careful analysis of the problem

definiert, wobei dann Analytics

the method of logical analysis

ist. Manche interpretieren daraus, dass sich Analysis mit der Vergangenheit beschäftigt und Analytics mit dem “Warum?” und der Zukunft, aber dies ist keine allgemein abgesicherte Sicht. Eine andere Sicht ist die, dass sich Analytics keiner Null-Hypothesen bedient und stattdessen Machine Learning verwendet, um etwas Sinnvolles aus Daten zu gewinnen. Auch diese Meinung ist nicht abgesichert. Man könnte Analytics auch als Mini-Statistik verstehen, in der nur Teilbereiche angewandt werden, die in der Geschäftswelt am meisten benötigt werden. Schließlich kann man Statistik studieren, und nicht jeder kann sich als Statistiker bezeichnen. Der Begriff Analytics hingegen ist weder definiert noch geschützt. Jeder kann sich als Analytics-Experte bezeichnen.

Webanalyse / Web Analytics wird von der DAA wie folgt definiert (und wir gehen davon aus, dass die DAA als Autorität das Recht hat, das Gebiet der Webanalyse zu definieren):

Web Analytics is the measurement, collection, analysis and reporting of Internet data for the purposes of understanding and optimizing Web usage.

Wir sehen hier eine Ähnlichkeit mit der Definition von Statistik: Collection, Analysis, reporting/presentation. Der Unterschied hier ist, dass sich die Webanalyse auf Internet-Daten beschränkt, und wie wir später sehen werden ist die Web Analyse zum Teil noch unerklärlich weit entfernt von den Methoden der Statistik. Dies könnte daran liegen, dass Web Analytics ein noch relatives junges Feld ist. Schließlich musste erst einmal das World Wide Web geboren werden, um überhaupt etwas zu analysieren zu haben. Dabei waren die Anfangstage vor allem durch das Auswerten von Logdateien geprägt, was in der Regel vom Server-Administrator vorgenommen wurde. Von Datenanalysten war hier noch keine Spur. Erst durch die zunehmende Technologisierung des Marketings sind die Anforderungen an Analysten gestiegen, denn je mehr Geschäfte über das Netz abgewickelt werden, desto belastbarer müssen die Annahmen sein, die erstellt werden.

Die Web-Analyse sollte aber nicht als zukünftige Teilmenge der Statistik begriffen werden, denn im Web ist zusätzliches technisches Wissen notwendig. Online Marketing ist mit den Jahren zunehmend komplexer geworden, und nur wer versteht, wie etwas gemessen wird, kann korrekte Aussagen treffen. Gleichzeitig fehlt manchem Gelegenheits-Web-Analysten ein fundiertes statistisches Wissen, zum Beispiel um die Daten in einem Web Analyse-System richtig zu interpretieren oder um saubere Experimente aufzusetzen. Genau diese Lücke wird in diesem Kurs geschlossen, denn neben den statistischen Grundlagen wird auch das technische Wissen vermittelt. Dies ist umso notwendiger, da mehr und mehr Offline-Daten in die Webanalyse-Systeme importiert werden können oder Webanalyse-Daten in andere Systeme integriert und dort analysiert werden.

Der letzte zu klärende Begriff ist Data Science. Auch hier existiert keine allgemein akzeptierte Definition, aber man könnte hierunter die Überschneidung beziehungsweise den interdisziplinären Einsatz von Data Mining, Datenanalyse und Machine Learning verstehen. Provost und Fawcett beschreiben Data Science wie folgt:

Data science involves principles, processes, and techniques for understanding phenomena via the (automated) analysis of data.

Pierson definiert:

Data Science is the computational science of extracting meaningful insights from raw data and then effectively communicating those insights to generate value.

Provost und Fawcett die Begriffe „Data Science“ und „Data Mining“ fast austauschbar, wobei Data Mining in ihrer Definition nicht erwähnt wird. Gleichzeitig verweisen sie darauf, wie jung dieses Feld noch ist und die heutigen Data Scientists in mehreren Gebieten bewandt sein müssen:

The particular concerns of data science are fairly new and general principles are just beginning to emerge. The state of data science may be likened to that of chemistry in the mid-19th century, when theo- ries and general principles were being formulated and the field was largely experimental. Every good chemist had to be a competent lab technician. Similarly, it is hard to imagine a working data scientist who is not proficient with certain sorts of software tools.

Um Daten automatisiert auswerten zu können, wird ein Statistik-Grundwissen vorausgesetzt. Eine Schnittmenge zwischen dem klar definierten Bereich der Statistik und dem noch schwammigen Bereich der Data Science ist also erkennbar. Da Web Analyse und Statistik auch Überschneidungen haben (sollten), kann Data Science im Web Analyse-Bereich somit als die automatisierte Analyse zur Identifikation und dem Verständnis von Internetdaten definiert werden. Im Hinblick auf Piersons Definition wird aber auch gleich eine weitere Schwäche der Web Analysten deutlich: Sie verwenden häufig aggregierte Daten, keine Rohdaten. Tatsächlich sind viele Web Analysten auch keine Programmierer, die Algorithmen zur Auswertung von Daten konzipieren könnten. Und wie oben festgestellt, fehlen ihnen auch häufig die Statistik-Grundlagen.

Das Ziel dieses Kurses ist, die Brücke zwischen den einzelnen Disziplinen zu schlagen und sowohl Grundkenntnisse in Statistik als auch technische Kompetenz sowie Data Science-Ansätze zu vermitteln. Das Tolle an Web Analytics-Daten ist, dass jeder schon mal auf einer Webseite war und somit auch nachvollziehen kann, was für Daten gesammelt werden können.

Nächster Abschnitt: Das Business Problem verstehen

Erstellen einer Hypothese

Die Voraussetzung für einen Test ist eine Hypothese. Diese Hypothese ist eine Annahme oder wörtlich genommen eine “Unterstellung”, denn wir nehmen etwas an, von dem wir nicht wissen, dass es so ist, wollen aber herausfinden, ob es so ist. Dabei ist es wichtig, dass es sich um etwas Messbares handelt. Einfach zu sagen, dass eine Webseiten-Navigation schlecht ist, reicht nicht aus. Woran kann das festgemacht werden? Welche Daten belegen das? Natürlich sind nicht immer Daten vorhanden, es können auch Erfahrungswerte oder Best Practices sein. Gleichzeitig muss diese Annahme mit der Verbesserung eines KPIs zu tun haben. Mit welchem KPI können wir messen, dass die Navigation wirklich schlecht ist? Wir könnten uns zum Beispiel die Onsite Searches ansehen und feststellen, dass die Benutzer nach Begriffen suchen, die die Inhalte auf der Seite gut beschreiben, die aber nicht in der Navigation auftauchen. Wären die Labels also anders beschriftet, so müssten die Nutzer weniger suchen und könnten ihr Informationsbedürfnis mit der Navigation erfüllen. Die Anzahl der Onsite Searches wäre somit der KPI, um die Qualität der Navigation zu messen.

Gleichzeitig müssen die KPIs mit den Geschäftszielen einer Webseite korrespondieren. Wenn die Nutzer die Navigation nutzen anstatt der Suche, dann haben wir eventuell noch nicht einen Cent mehr in die Kasse gespült. Wir könnten auch die Anzahl der Bounces auf einer Seite als KPI nehmen, hätten hier aber den Nachteil, dass Bounces auch durch andere Faktoren entstehen können. Wir sehen, es ist schwierig, eine Hypothese in diesem Fall so zu formulieren, dass sich die gefühlte Verbesserung auch in monetären Vorteilen spiegelt.

Bewährt hat sich der Ansatz, eine Hypothese in vier Teile zu teilen:

  1. Indem ich das, wovon meine Daten belegen, dass es dazu führt, dass meine Nutzer heute “Nein” sagen,
  2. in etwas ändere, wovon ich glaube, dass die Nutzer dazu “Ja” sagen,
  3. erreiche ich den (psychologischen) Effekt bei meinen Nutzern,
  4. der den oder die KPIs verbessert.

Die Begriffe in rot müssen dann an die jeweilige Hypothese angepasst werden. An dem Beispiel der Navigation:

  1. Indem ich die Labels in der Navigation, in denen sich meine Nutzer anscheinend nicht wiederfinden, so dass sie die Onsite Search nutzen müssen (>2% Onsite Search Anteil, was über dem Benchmark liegt) und eventuell eher abbrechen (70% der Nutzer brechen nach einer Suche ab),
  2. in Labels ändere, die mehr dem Vokabular der meisten Nutzer entsprechen,
  3. fühlen sich die Nutzer besser abgeholt und finden schneller, was sie wollen,
  4. so dass sie weniger Schritte und weniger Suchen benötigen und somit seltener abspringen und häufiger in den Conversion Funnel einsteigen und somit für mehr Umsatz sorgen.

Wir haben somit eine daten-basierte Annahme getroffen und definieren mehrere KPIs, die uns helfen, den Effekt zu messen.

Arithmetisches Mittel, Median und Modus

Das arithmetische Mittel

Mit dem Durchschnitt wird häufig das arithmetische Mittel gemeint, welches nur einen von mehreren Mittelwerten darstellt (im Englischen wird das arithmetische Mittel als “Mean” bezeichnet). Auch in Google Analytics und allen anderen Web Analyse-Systemen wird meistens nur das arithmetische Mittel angezeigt, obwohl das zu Fehlinterpretationen führen kann. So ist das arithmetische Mittel anfällig für Ausreißer, wie in dem folgenden Beispiel sehen können:

In einem kleinen Kurs mit fünf Studenten und einem Lehrbeauftragten wird das Durchschnittsalter berechnet, also das arithmetische Mittel. Das Durchschnittsalter beträgt 26 Jahre. Wäre der Lehrbeauftragte nicht in die Rechnung einbezogen, so läge das Durchschnittsalter bei 22. Der Lehrbeauftragte ist ein Ausreißer in Bezug auf sein Alter; er zieht das arithmetische Mittel nach oben.

Der Median

Der Median ist der mittlere Wert, wenn man alle Daten nach ihrem Wert sortiert. In unserem Beispiel sieht das so aus:

Da wir eine gerade Anzahl von Elementen haben, gibt es nicht eine Zahl in der Mitte, sondern zwei. Hier werden beide Zahlen summiert und das Ergebnis durch 2 geteilt. Der Median beträgt 22; er ist also weniger beeinflusst von dem Ausreißer.

Der Modus

Der Modus ist der häufigste Wert:

In unserem Beispiel ist der Modus 21. Der Modus kann aber noch mehr: So könnte es mehr als einen Modus geben, wenn zum Beispiel zwei Studenten 25 wären und zwei Studenten 21. Außerdem funktioniert der Modus auch mit kategorischen Daten. Wenn 2 der Studenten Männer wären und 3 Frauen, so könnten wir kein arithmetisches Mittel bilden, und einen Median auch nicht. Aber wir können die Elemente in den Kategorien zählen.

Warum ist das wichtig?

Schauen wir uns noch einmal das Zielgruppe-Dashboard aus Google Analytics an:

Die durchschnittliche Anzahl von Seiten pro Session liegt hier bei 1,71. Im Durchschnitt schauen sich die Nutzer also mehr als eine Seite an. Oder?

Tatsächlich ist das arithmetische Mittel hier irreführend, wie wir an dem folgenden Histogramm erkennen können:

Histogramm Seiten pro SessionWir sehen, dass sich tatsächlich die meisten Nutzer nur eine Seite ansehen. Ein Nutzer hat sich 54 Seiten in einer Session angesehen, und natürlich hebt auch er den Durschnitt an. Der Median für diesen KPI liegt bei 1, so dass wir aus einer Kombination von Median und Mean bereits erkennen können, dass es Ausreißer geben muss. Diese Information wird in dem Dashboard von Google Analytics (und jedem anderen Web Analyse-System) vorenthalten, lediglich unter einem versteckten Unterpunkt ist ein verdrehtes Histogramm zu finden, dass die Informationen ähnlich aufbereitet.

Der Vorteil am arithmetischen Mittel ist, dass es in einer Zahl Informationen verdichten kann. Der große Nachteil ist, dass er alleine nichts über die Verteilung der Werte aussagt und dementsprechend zu Fehlinterpretationen führen kann.

Nächster Abschnitt: Verteilungen

Wird mein Content gelesen? Sichtbarkeit von Elementen messen!

Im September 2017 hatte ich noch darüber geschrieben, dass die Scrolltiefe ein besserer Indikator dafür wäre, ob ein Inhalt gelesen wurde als die reine Sitzungsdauer, die eh Quatsch ist. Einen Monat später veröffentlichte Google dann eine neue Funktion im Google Tag Manager, einen Trigger für die Sichtbarkeit von Elementen (in der deutschen Version der Release Notes fehlte der Hinweis). Damit lassen sich einige Nachteile des Scrolltiefen-Ansatzes kompensieren, vor allem die Einschränkung, dass nicht jede Seite gleich lang ist und “75% gelesen” nicht immer bedeuten muss, dass der Inhalt auch bis zum Ende gelesen wurde (75% wurde deswegen gewählt, weil viele Seiten einen immensen Footer haben und die Nutzer daher nicht zu 100% runterscrollen). Eine Seite bei mir hat so viele Kommentare, dass sie mehr als die Hälfte des Inhalts ausmachen. “Wird mein Content gelesen? Sichtbarkeit von Elementen messen!” weiterlesen

Woher kommen die SimilarWeb-Daten?

[Dies ist die Neuauflage eines älteren Artikels]

Wie bei Google Trends bin ich immer wieder überrascht, wie schnell Rückschlüsse aus Daten gezogen werden, ohne dass einmal überlegt wird, woher die Daten eigentlich kommen und wie plausibel sie sind. Vor allem bei Similar Web ist das erstaunlich, denn Google hat ja die Suchdaten und kann Trends daraus ablesen, aber woher kann eigentlich Similar Web Daten darüber haben, wie viele Besucher eine Webseite oder eine App hat? Wie zuverlässig sind diese Daten? Ist die Zuverlässigkeit ausreichend, um daraus wichtige Business-Entscheidungen zu treffen? “Woher kommen die SimilarWeb-Daten?” weiterlesen

10 Google Analytics Basics (auch für andere Web Analyse-Tools)

Google Analytics hatte letztes Jahr seinen 10. Geburtstag, und in den letzten mehr als 10 Jahren durfte ich einiges an Erfahrung sammeln, was man beim Einsatz von Web Analytics-Systemen beachten muss. Hier sind meine 10 Basic-Tipps, angefangen mit den absoluten Basics, den Abschluss bilden dann die Basics für diejenigen, die auch wirklich was mit ihren Daten anfangen wollen 🙂 “10 Google Analytics Basics (auch für andere Web Analyse-Tools)” weiterlesen