The Joy of Data

Alles geht auf Philiosophie zurück 🙂 Und das Internet wäre ohne die Briten nicht möglich gewesen. Erinnert mich etwas an den UK-Pavilion auf der Expo 2000, in dem der iMac ausgestellt wurde. Schließlich wurde auch dieser von einem Briten, Jonathan Ive, entworfen. Ansonsten eine absolut empfehlenswerte Dokumentation.

Analyse, Analytics, Statistik, Data Science – Was denn jetzt?

Zunächst einmal: Nicht alle dieser Begriffe sind eindeutig definiert. Klar definiert ist das Gebiet der Statistik, das Merriam-Webster als

a branch of mathematics dealing with the collection, analysis, interpretation, and presentation of masses of numerical data

bezeichnet. Borz formuliert in seinem Standardwerk:

Statistik ist ein wichtiger Bestandteil empirisch-wissenschaftlichen Arbeitens, der sich mit der Zusammenfassung und Darstellung von Daten befasst. Darüber hinaus stellt die Statistik den empirischen Wissenschaftlern Verfahren zur Verfügung, mit denen objektive Entscheidungen über die Brauchbarkeit von wissenschaftlichen Hypothesen getroffen werden können.

Analysis (also Analyse im Deutschen) wird im Merriam-Webster als

a detailed examination of anything complex in order to understand its nature or to determine its essential features; a thorough study, doing a careful analysis of the problem

definiert, wobei dann Analytics

the method of logical analysis

ist. Manche interpretieren daraus, dass sich Analysis mit der Vergangenheit beschäftigt und Analytics mit dem “Warum?” und der Zukunft, aber dies ist keine allgemein abgesicherte Sicht. Eine andere Sicht ist die, dass sich Analytics keiner Null-Hypothesen bedient und stattdessen Machine Learning verwendet, um etwas Sinnvolles aus Daten zu gewinnen. Auch diese Meinung ist nicht abgesichert. Man könnte Analytics auch als Mini-Statistik verstehen, in der nur Teilbereiche angewandt werden, die in der Geschäftswelt am meisten benötigt werden. Schließlich kann man Statistik studieren, und nicht jeder kann sich als Statistiker bezeichnen. Der Begriff Analytics hingegen ist weder definiert noch geschützt. Jeder kann sich als Analytics-Experte bezeichnen.

Webanalyse / Web Analytics wird von der DAA wie folgt definiert (und wir gehen davon aus, dass die DAA als Autorität das Recht hat, das Gebiet der Webanalyse zu definieren):

Web Analytics is the measurement, collection, analysis and reporting of Internet data for the purposes of understanding and optimizing Web usage.

Wir sehen hier eine Ähnlichkeit mit der Definition von Statistik: Collection, Analysis, reporting/presentation. Der Unterschied hier ist, dass sich die Webanalyse auf Internet-Daten beschränkt, und wie wir später sehen werden ist die Web Analyse zum Teil noch unerklärlich weit entfernt von den Methoden der Statistik. Dies könnte daran liegen, dass Web Analytics ein noch relatives junges Feld ist. Schließlich musste erst einmal das World Wide Web geboren werden, um überhaupt etwas zu analysieren zu haben. Dabei waren die Anfangstage vor allem durch das Auswerten von Logdateien geprägt, was in der Regel vom Server-Administrator vorgenommen wurde. Von Datenanalysten war hier noch keine Spur. Erst durch die zunehmende Technologisierung des Marketings sind die Anforderungen an Analysten gestiegen, denn je mehr Geschäfte über das Netz abgewickelt werden, desto belastbarer müssen die Annahmen sein, die erstellt werden.

Die Web-Analyse sollte aber nicht als zukünftige Teilmenge der Statistik begriffen werden, denn im Web ist zusätzliches technisches Wissen notwendig. Online Marketing ist mit den Jahren zunehmend komplexer geworden, und nur wer versteht, wie etwas gemessen wird, kann korrekte Aussagen treffen. Gleichzeitig fehlt manchem Gelegenheits-Web-Analysten ein fundiertes statistisches Wissen, zum Beispiel um die Daten in einem Web Analyse-System richtig zu interpretieren oder um saubere Experimente aufzusetzen. Genau diese Lücke wird in diesem Kurs geschlossen, denn neben den statistischen Grundlagen wird auch das technische Wissen vermittelt. Dies ist umso notwendiger, da mehr und mehr Offline-Daten in die Webanalyse-Systeme importiert werden können oder Webanalyse-Daten in andere Systeme integriert und dort analysiert werden.

Der letzte zu klärende Begriff ist Data Science. Auch hier existiert keine allgemein akzeptierte Definition, aber man könnte hierunter die Überschneidung beziehungsweise den interdisziplinären Einsatz von Data Mining, Datenanalyse und Machine Learning verstehen. Provost und Fawcett beschreiben Data Science wie folgt:

Data science involves principles, processes, and techniques for understanding phenomena via the (automated) analysis of data.

Pierson definiert:

Data Science is the computational science of extracting meaningful insights from raw data and then effectively communicating those insights to generate value.

Provost und Fawcett die Begriffe „Data Science“ und „Data Mining“ fast austauschbar, wobei Data Mining in ihrer Definition nicht erwähnt wird. Gleichzeitig verweisen sie darauf, wie jung dieses Feld noch ist und die heutigen Data Scientists in mehreren Gebieten bewandt sein müssen:

The particular concerns of data science are fairly new and general principles are just beginning to emerge. The state of data science may be likened to that of chemistry in the mid-19th century, when theo- ries and general principles were being formulated and the field was largely experimental. Every good chemist had to be a competent lab technician. Similarly, it is hard to imagine a working data scientist who is not proficient with certain sorts of software tools.

Um Daten automatisiert auswerten zu können, wird ein Statistik-Grundwissen vorausgesetzt. Eine Schnittmenge zwischen dem klar definierten Bereich der Statistik und dem noch schwammigen Bereich der Data Science ist also erkennbar. Da Web Analyse und Statistik auch Überschneidungen haben (sollten), kann Data Science im Web Analyse-Bereich somit als die automatisierte Analyse zur Identifikation und dem Verständnis von Internetdaten definiert werden. Im Hinblick auf Piersons Definition wird aber auch gleich eine weitere Schwäche der Web Analysten deutlich: Sie verwenden häufig aggregierte Daten, keine Rohdaten. Tatsächlich sind viele Web Analysten auch keine Programmierer, die Algorithmen zur Auswertung von Daten konzipieren könnten. Und wie oben festgestellt, fehlen ihnen auch häufig die Statistik-Grundlagen.

Das Ziel dieses Kurses ist, die Brücke zwischen den einzelnen Disziplinen zu schlagen und sowohl Grundkenntnisse in Statistik als auch technische Kompetenz sowie Data Science-Ansätze zu vermitteln. Das Tolle an Web Analytics-Daten ist, dass jeder schon mal auf einer Webseite war und somit auch nachvollziehen kann, was für Daten gesammelt werden können.

Nächster Abschnitt: Das Business Problem verstehen

Erstellen einer Hypothese

Die Voraussetzung für einen Test ist eine Hypothese. Diese Hypothese ist eine Annahme oder wörtlich genommen eine “Unterstellung”, denn wir nehmen etwas an, von dem wir nicht wissen, dass es so ist, wollen aber herausfinden, ob es so ist. Dabei ist es wichtig, dass es sich um etwas Messbares handelt. Einfach zu sagen, dass eine Webseiten-Navigation schlecht ist, reicht nicht aus. Woran kann das festgemacht werden? Welche Daten belegen das? Natürlich sind nicht immer Daten vorhanden, es können auch Erfahrungswerte oder Best Practices sein. Gleichzeitig muss diese Annahme mit der Verbesserung eines KPIs zu tun haben. Mit welchem KPI können wir messen, dass die Navigation wirklich schlecht ist? Wir könnten uns zum Beispiel die Onsite Searches ansehen und feststellen, dass die Benutzer nach Begriffen suchen, die die Inhalte auf der Seite gut beschreiben, die aber nicht in der Navigation auftauchen. Wären die Labels also anders beschriftet, so müssten die Nutzer weniger suchen und könnten ihr Informationsbedürfnis mit der Navigation erfüllen. Die Anzahl der Onsite Searches wäre somit der KPI, um die Qualität der Navigation zu messen.

Gleichzeitig müssen die KPIs mit den Geschäftszielen einer Webseite korrespondieren. Wenn die Nutzer die Navigation nutzen anstatt der Suche, dann haben wir eventuell noch nicht einen Cent mehr in die Kasse gespült. Wir könnten auch die Anzahl der Bounces auf einer Seite als KPI nehmen, hätten hier aber den Nachteil, dass Bounces auch durch andere Faktoren entstehen können. Wir sehen, es ist schwierig, eine Hypothese in diesem Fall so zu formulieren, dass sich die gefühlte Verbesserung auch in monetären Vorteilen spiegelt.

Bewährt hat sich der Ansatz, eine Hypothese in vier Teile zu teilen:

  1. Indem ich das, wovon meine Daten belegen, dass es dazu führt, dass meine Nutzer heute “Nein” sagen,
  2. in etwas ändere, wovon ich glaube, dass die Nutzer dazu “Ja” sagen,
  3. erreiche ich den (psychologischen) Effekt bei meinen Nutzern,
  4. der den oder die KPIs verbessert.

Die Begriffe in rot müssen dann an die jeweilige Hypothese angepasst werden. An dem Beispiel der Navigation:

  1. Indem ich die Labels in der Navigation, in denen sich meine Nutzer anscheinend nicht wiederfinden, so dass sie die Onsite Search nutzen müssen (>2% Onsite Search Anteil, was über dem Benchmark liegt) und eventuell eher abbrechen (70% der Nutzer brechen nach einer Suche ab),
  2. in Labels ändere, die mehr dem Vokabular der meisten Nutzer entsprechen,
  3. fühlen sich die Nutzer besser abgeholt und finden schneller, was sie wollen,
  4. so dass sie weniger Schritte und weniger Suchen benötigen und somit seltener abspringen und häufiger in den Conversion Funnel einsteigen und somit für mehr Umsatz sorgen.

Wir haben somit eine daten-basierte Annahme getroffen und definieren mehrere KPIs, die uns helfen, den Effekt zu messen.

Mittelwert, Median und Modus

When talking about an average, most people refer to the mean which is officially called the arithmetic mean. It is built by summing up all values of a population and dividing this sum by the number of elements. Unfortunately, the mean can easily be skewed by outliers in the data. Let’s look at the following list of ages of people in a course (obviously, the oldest person is the teacher):

22
26
27
21
22
22
20
20
25
21
21
21
25
46

The mean here is 24,21 years. Without the teacher, the mean would be 22.54. This single outlier skews the data.

Another perspective on the average is the median, the middle value of a list sorted by their values. The advantage of the median is that it is less influenced by outliers. In our example, the sorted list looks like this:

20
20
21
21
21
21
22
22
22
25
25
26
27
46

Since we have 14 elements in the list, there is no element in the middle, so we have to take the two values that are in the middle and divide them by 2, in this case (22+22)/2=22. The median of 22 is closer to the mean of the ages without the teacher as the median is less vulnerable to outliers.

Finally, we have the mode (there are also other averages in statistics, but we will not cover these). The mode is the most frequent value in a list. It is always a good idea to plot data, especially when distributions of data are examined. In this case, we create a histogram:

Histogram Age Distribution

21 years is the most frequent number in the data, it is the mode of this data set. Also, the mode works with categorial data. If you have 13 students, 6 from Germany and 7 from France, you have two groups. You cannot ask “what is the arithmetic mean of countries of origin?” but the mode works just fine with such data.

Without any visualisation, mean, median and mode already reveal a lot about our data set. We know that there are outliers in our dataset that skew the numbers. In general, the mean alone may not be a good statistic to examine data although it is widely used.

Wird mein Content gelesen? Sichtbarkeit von Elementen messen!

Im September 2017 hatte ich noch darüber geschrieben, dass die Scrolltiefe ein besserer Indikator dafür wäre, ob ein Inhalt gelesen wurde als die reine Sitzungsdauer, die eh Quatsch ist. Einen Monat später veröffentlichte Google dann eine neue Funktion im Google Tag Manager, einen Trigger für die Sichtbarkeit von Elementen (in der deutschen Version der Release Notes fehlte der Hinweis). Damit lassen sich einige Nachteile des Scrolltiefen-Ansatzes kompensieren, vor allem die Einschränkung, dass nicht jede Seite gleich lang ist und “75% gelesen” nicht immer bedeuten muss, dass der Inhalt auch bis zum Ende gelesen wurde (75% wurde deswegen gewählt, weil viele Seiten einen immensen Footer haben und die Nutzer daher nicht zu 100% runterscrollen). Eine Seite bei mir hat so viele Kommentare, dass sie mehr als die Hälfte des Inhalts ausmachen. More

Woher kommen die SimilarWeb-Daten?

[Dies ist die Neuauflage eines älteren Artikels]

Wie bei Google Trends bin ich immer wieder überrascht, wie schnell Rückschlüsse aus Daten gezogen werden, ohne dass einmal überlegt wird, woher die Daten eigentlich kommen und wie plausibel sie sind. Vor allem bei Similar Web ist das erstaunlich, denn Google hat ja die Suchdaten und kann Trends daraus ablesen, aber woher kann eigentlich Similar Web Daten darüber haben, wie viele Besucher eine Webseite oder eine App hat? Wie zuverlässig sind diese Daten? Ist die Zuverlässigkeit ausreichend, um daraus wichtige Business-Entscheidungen zu treffen? More

10 Google Analytics Basics (auch für andere Web Analyse-Tools)

Google Analytics hatte letztes Jahr seinen 10. Geburtstag, und in den letzten mehr als 10 Jahren durfte ich einiges an Erfahrung sammeln, was man beim Einsatz von Web Analytics-Systemen beachten muss. Hier sind meine 10 Basic-Tipps, angefangen mit den absoluten Basics, den Abschluss bilden dann die Basics für diejenigen, die auch wirklich was mit ihren Daten anfangen wollen 🙂 More