Literatur

The Joy of Data

Alles geht auf Philiosophie zurück 🙂 Und das Internet wäre ohne die Briten nicht möglich gewesen. Erinnert mich etwas an den UK-Pavilion auf der Expo 2000, in dem der iMac ausgestellt wurde. Schließlich wurde auch dieser von einem Briten, Jonathan Ive, entworfen. Ansonsten eine absolut empfehlenswerte Dokumentation, hier auf der BBC-Seite zu sehen.

Ausschnitt:

Über diesen Kurs

Das Ziel dieses Kurses ist nicht, die Bedienung von Tools wie Google Analytics, Adobe Analytics, der Google Webmaster Console oder den Umgang mit Machine Learning-Algorithmen zu vermitteln. Vielmehr geht es darum, die Kompetenz zu vermitteln, wie an analytische Probleme herangegangen wird. Die Werkzeuge sind nur ein Mittel zum Zweck. Nicht umsonst heißt es:

A fool with a tool is still a fool.

Die Bedienung eines Tools kann man schnell ergooglen, den Denkansatz aber nicht. Und der ist viel wichtiger als genau zu wissen, welche Dimension mit welcher Metrik in einem Tool miteinander verbunden werden kann oder wie die Formel für einen bestimmten Algorithmus genau aussieht. Denn die Tools entwickeln sich schnell weiter, so dass jedes Wissen über das Tool veraltet ist, bevor der Kurs abgeschlossen wird. Der Denkansatz aber wird sehr wahrscheinlich auf absehbare Zeit gleich bleiben. Wir werden uns auch nicht nur Webanalyse-Daten ansehen, denn viele Fragen lassen sich nur durch die Verknüpfung verschiedener Daten beantworten.

Für die Herangehensweise an analytische Probleme werden in diesem Kurs Statistik-Grundlagen vermittelt. Dabei wird darauf geachtet, dass nicht stumpf Statistik-Wissen mit Formeln eingetrichtert wird, sondern vor allem die Wissensbereiche, die elementar für die Analyse von Daten im Webanalyse und drumherum sind. Die Webanalyse wird noch viel zu häufig ohne diese Grundlagen durchgeführt, doch spätestens wenn sich eine Datenanalyse nicht nur auf reine Webanalyse-Daten bezieht, ist Statistikwissen notwendig. Mit diesen Grundlagen gewappnet schnuppern wir in die ersten Bereiche des derzeit gehypten Bereichs Data Science hinein.

Wir werden uns vorrangig mit Google Tools beschäftigen, nicht weil diese unbedingt besser sind, sondern weil viele davon kostenlos verfügbar sind und deswegen auch einfach ausprobiert werden können. Die in dem Kurs vermittelten Kenntnisse sollten ausreichen, um die Google Analytics Individual Qualification zu bestehen und für die Zertifizierung der Digital Analytics Association vorbereitet zu sein.

Nächster Abschnitt: Einführung

Cookies

Cookies sind kleine Textdateien, die eine Website über den Browser auf der Festplatte des Benutzers abspeichern kann. In diesen Dateien wird zum Beispiel gespeichert, ob der Nutzer eine Webseite bereits besucht hat, sie ermöglichen es also, einen Benutzer wiederzuerkennen. Eine Seite kann mehr als einen Cookie setzen, es können auch Cookies von anderen Seiten gesetzt werden. In diesem Fall spricht man übrigens von einem 3rd Party Cookie, wobei der von Google Analytics gesetzte Cookie zum Beispiel ein First Party Cookie ist. Vom eigenen Server selbst gesetzte Cookies sind 1st Party Cookies (Das darf nicht verwechselt werden mit 1st, 2nd und 3rd Party Data). Cookies haben eine definierte Laufzeit, der Google Analytics Cookie hat zum Beispiel eine Laufzeit von 2 Jahren, was aber auch konfiguriert werden kann.

Eine Website kann nur die eigenen Cookies auslesen, nicht die anderer Websites. Es wäre zum Beispiel möglich, dass man sich eine befreundete Website sucht, die man dann Cookies von ihrer Domain setzen lässt und umgekehrt. So kann dann auf die Nutzer dieser befreundeten Seite „getargeted“ werden.

Cookies sind deshalb so wichtig, weil ein reines Klick-Tracking (Wie oft wurde etwas angeklickt?) keine Aussage darüber trifft, ob ein Nutzer vielleicht mehrmals geklickt hat. So wird zum Beispiel in der Web Analyse unterschieden zwischen Aufrufen einer Seite und eindeutigen Besuchern einer Seite. Wir wollen nicht nur wissen, wie oft eine Seite aufgerufen oder ein Link angeklickt wurde, sondern auch, ob dies immer wieder neue oder auch wiederkehrende Nutzer waren. Daher wird Klick-Tracking durch Cookies ergänzt.

Cross Device Tracking

Cookies werden stets auf dem Gerät und in dem Browser abgelegt, mit dem man gerade im Netz unterwegs ist. Die Realität heute ist, dass Nutzer sich nicht auf ein Gerät beschränken, sondern mehrmals am Tag die Geräte wechseln. Fast jeder trägt ein Mobiltelefon mit sich, darüber hinaus befinden sich in vielen Haushalten mittlerweile Tablets, ganz abgesehen von Desktop-Rechnern und Laptops zuhause und bei der Arbeit. Das hat zur Folge, dass in der Regel nicht identifiziert werden kann, ob ein Benutzer mit einem anderen Gerät oder einem anderen Browser wiederkommt. Im Prinzip dürfte man im Rahmen der Webanalyse nicht von Nutzern, sondern lediglich von Browsern sprechen. Eine Ausnahme bilden hier Seiten, die durch Logins eine eigene User ID vergeben können.

Wer also auf dem Mobiltelefon recherchiert und später auf einem Desktop- Rechner kauft, führt den Daten- und Web-Analysten in schwierige Gewässer, sofern eine Webseite nicht mit Logins arbeitet oder das System bereits eine Indikation des Cross Device-Verhaltens mitliefert. Zum einen wird der Benutzer auf dem Mobiltelefon eventuell noch Retargeting- Maßnahmen ertragen müssen, zum anderen werden Zahlen verzerrt. Denn wenn ein Benutzer auf dem Mobiltelefon nichts kauft, dann wird der eingekaufte Traffic hier unter Umständen als sinnlos angesehen, die Trafficquelle auf dem Gerät, auf dem der Abschluss statt- fand, aber als gewinnbringender. Kann ein Geräte-übergreifendes Tracking (der englische Begriff „Cross Device Tracking“ geht etwas leichter über die Lippen) nicht gewährleistet werden, so sind alle Zahlen mit Vorsicht zu genießen.

2018 führte Google Analytics Cross Device Tracking auch für Nutzer ohne Login ein; diese Daten sind aber nicht über die API verfügbar.

Nächster Abschnitt: Tag Management

Von Zielen zu KPIs

KPIs (Key Performance Indicators) sind keine Ziele. Oft werden KPIs berichtet, doch ohne Bezug zu einem Ziel sind KPIs wertlos. Dies ist auch ein häufiger Grund dafür, dass Berichte nicht gelesen werden, denn was soll damit anfangen, dass zum Beispiel die Anzahl der Besucher einer Webseite von 30.000 auf 29.500 pro Monat gefallen sind?

Erst nach der Klärung der Ziele können KPIs definiert werden. Die folgende Grafik zeigt den Prozess:

Dies wird an einem Beispiel erläutert. Die im Kurs ernannten CEOs des Google Merchandising Stores haben das Ziel der Gewinnmaximierung und definieren als Business-Ziel eine Summe x als Umsatz oder Gewinn. Eine Möglichkeit (und wahrscheinlich auch die sinnvollste), dieses Ziel zu erreichen, ist das Herunterbrechen des Ziels in Unterziele. Ein Unternehmen hat viele Dimensionen, Personalkosten, Einkauf, Marketing, Betriebskosten etc. Aus Gründen der Vereinfachung fokussieren wir uns auf das Marketing.

Ein einfacher Ansatz im Marketing ist das AIDA-Modell, wobei AIDA für

  • Awareness
  • Interest
  • Desire
  • Action

steht. Jedes dieser Marketing-Ziele muss auch SMART sein, z.B. 1.000.000 Menschen in einem Jahr erreichen, die den Shop noch nicht kennen und für die deren Produkte relevant sind. Dieses Marketing-Ziel kann und sollte weiter heruntergebrochen werden. Die Unterziele sollten dann die Frage beantworten, wie diese Marketing-Ziele erreicht werden, zum Beispiel mit einer Display-Kampagne, die 500.o00 Menschen erreichen soll, und Affiliate-Partnerschaften, die wiederum 500.000 Menschen erreichen.

KPIs sind keine Metriken. Aber KPIs können mit Metriken gemessen werden. Dies soll an einem Beispiel verdeutlicht werden: Ein Segler möchte von Hamburg nach Helgoland segeln, um dort ein Fischbrötchen zu essen. Er weiß, dass die Fischbrötchenbuden nur bis 16 Uhr geöffnet haben. Sein Ziel ist SMART, denn es ist spezifisch (Fischbrötchen auf Helgoland), es ist messbar (Fischbrötchen im Magen), es ist immens attraktiv (Fischbrötchen!!!), es ist realistisch (man kann von Hamburg nach Helgoland segeln) und es ist terminiert (bis 16 Uhr). Auf See wird sich unser Segler immer wieder KPIs ansehen, die ihm helfen zu verstehen, ob er auf dem richtigen Kurs ist, sein Ziel zu erreichen, oder ob er korrigierende Maßnahmen einleiten muss. Die Geschwindigkeit ist ein KPI, die in der Metrik Knoten gemessen wird. Weitere KPIs sind Wind, Koordinaten, etc.

Nächster Abschnitt: Von Daten zur Handlungsrelevanz

Server Log Files

In den frühen Tagen des Webs (und zum Teil noch heute) wurden vor allem die Log-Dateien des Webservers ausgewertet. Diese haben ungefähr das folgende Format:

66.249.83.x − − [25/Aug/2014:05:39:15 +0200] "GET / datei . html HTTP/1.1"
200 17818 www.domain.de "http ://www.google.de/url?sa=t &rct=j&q=&esrc=s&source=web&cd=2 &ved=0CFEQFjAD&url=http%3A%2F%2Fwww.domain.de/datei.html&ei=tK_6U4nlKpzZ6APBfg &usg=AFQjCNFOJZuerl_SuAT−rLgxVjADIww6LA"
"Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident /4.0; SLCC2; .NET CLR 2.0.50727; .NETCLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; InfoPath .3)" "−"

Die Logdatei enthält in der Regel also die IP-Adresse des Benutzers (in diesem Fall wurde das letzte Oktet anonymisiert), das Datum und die Uhrzeit, die Datei, die abgerufen wurde, den HTTP-Status, die Bytes, die übertragen werden, den Referrer,5, den Browser und das Betriebssystem. Es wird nicht erkannt, ob derselbe Benutzer vorher schon einmal da gewesen ist.

Aus diesen Logdateien wurden automatisiert grafisch aufbereitete Auswertungen generiert. Hier werden die einzelnen gerade genannten Merkmale summiert und zum Teil auch weiter ausgewertet. Mitunter sieht man auch heute noch größere Unternehmen mit sol- chen Statistiken arbeiten, meistens mit Hinweis auf Datenschutzprobleme bei der Nutzung fortschrittlicherer Systeme.

Aber es gibt tatsächlich immer noch Gründe, die Webserver-Daten genauer anzusehen: Die zunehmende Anzahl von Tracking-Verweigerern zum einen sowie der Crawl-Traffic wird von den regulären Web Analytics-Systemen nicht erfasst, da die meisten Bots das von den Trackingsystemen eingebundene JavaScript nicht interpretieren. Die Daten aus den altmodischen Weblogs können also immer noch nützlich sein, und sei es nur dazu, Server-Ressourcen freizusetzen, indem unnütze Bots gesperrt werden.

Es ist als Nutzer nicht möglich, dieses Tracking zu unterbinden, auch wenn man den Do not Track-Modus des Browsers aktiviert hat.

Nächster Abschnitt: Pixel/Tagging

Das Reporting

Management-kompatible Berichte zu erstellen bedeutet nicht nur in der Daten- und Webanalyse, dass die wichtigsten Informationen leicht konsumierbar dargestellt werden. Der Fokus sollte genau auf diese beiden Metriken zielen, wichtig und einfach konsumierbar.

Keine Angst vor Daten!

Nicht alle Menschen sind beim Anblick eines Dendrograms oder einer langen Zahlenkolonne von der Neugier gepackt; nicht selten kommen auch negative Emotionen zum Vorschein. Eine Erklärung dafür ist, dass nicht jeder während der Schulzeit gute Erfahrungen im Matheunterricht hatte und dementsprechend weniger gute Erinnerungen geweckt werden. Hinzu kommt, dass sich viele auch nicht trauen nachzufragen, wenn sie etwas nicht verstehen. Und so sitzen viele Menschen in Meeting-Räumen zusammen und schauen sich Zahlen an, die sie nicht verstehen und auch nicht hinterfragen.

Für denjenigen, der Daten vermitteln muss, bedeutet das, dass das Datenmaterial in eine „Story“ gepackt werden muss, wie es auf Neudeutsch heißt. Damit stehen nicht die Zahlen im Vordergrund, sondern das, was die Zahlen bedeuten. Allerdings sind schlechte Erinnerungen an den Matheunterricht nicht der einzige Grund für Skepsis gegenüber Daten.

Trotz aller Lippenbekenntnisse, wie wichtig Daten sind, hat die Statistik als Daten-Disziplin keinen guten Ruf. “Trau keiner Statistik, die Du nicht selber gefälscht hast” ist nur ein Beispiel dafür, dass Zahlen misstraut wird. Wie einfach mit Zahlen gespielt werden kann, wird tatsächlich auch im Statistik-Abschnitt besprochen, aber wenn der Daten-Disziplin misstraut wird, wie kann dann ernsthaft mit Daten gearbeitet werden?

Angst vor Gesichtsverlust

Zahlen und Daten haben einen weiteren Nebeneffekt, der ebenfalls psychologischer Natur ist. Neben der Angst davor, dass man die Zahlen nicht versteht, kann auch eine mindestens latente Angst existieren, dass durch Zahlen und Daten das eigene Tun messbarer und damit auch vergleichbarer wird. Wenn zum Beispiel gemessen wird, ob ein Text auf einer Webseite tatsächlich gelesen wird, dann hat dies den ganz großen Nachteil, dass auch herauskommen kann, dass der Text nicht gelesen wird. Wenn viel Zeit in den Text investiert wurde, dann kann dies zu einer Enttäuschung führen, die man gerne vermeiden möchte.

Ähnlich sieht es aus, wenn man sich schon eine Meinung gebildet hat, sich nun aber mit Daten konfrontiert sieht, die diese Meinung widerlegen. Es ist nicht untypisch, dass Menschen von sich selbst auf andere schließen („n=1“ oder „anekdotische Evidenz“ genannt) und allein ihre Erfahrung und Erlebnisse zu einer Meinungsbildung verwenden. Oder dass nur Daten gesucht werden, die die eigene Meinung unterstützen (ein sogenannter Bestätigungsfehler). Hier kann es mitunter schwierig sein, Daten sprechen zu lassen, wenn eine Meinung schon gebildet wurde, denn auch dies könnte einen Gesichtsverlust bedeuten. Man stelle sich vor, dass einem religiösen Menschen gesagt wird, dass Daten existieren, dass sein Gott nicht existiert; dies bedeutet einen Verlust, der emotional nicht zu unterschätzen ist. In der Sozialpsychologie wird dies auch als kognitive Dissonanz bezeichnet.

Aufbrechen von Daten-Silos

Nicht das Unvermögen der Mitarbeiter, sondern vielmehr die Struktur eines Unternehmens verhindert nicht selten den intelligenten Umgang mit Daten. In fast allen Unternehmen existiert eine Vielzahl von Daten, aber das bedeutet nicht, dass diese für alle Mitarbeiter verfügbar sind. Allein schon aus Datenschutzrechtlichen Gründen ist dies nicht möglich. Nicht ntypisch ist zum Beispiel, dass die IT die Customer Relationship Management-Datenbank betreut, das Marketing die Marketing-Daten wie Web Analytics oder Tracking-Daten von Marketing- Kampagnen, und das Produktmanagement die Produktnutzungsdaten (sofern diese erhoben werden). Manche Abteilungen sprechen unterschiedliche Sprachen, so dass das Marketing zum Beispiel nicht so gut mit der IT sprechen kann, weil ein ganz anderes Vokabular genutzt und ein anderer Wissensstand vorausgesetzt wird.

Daten sind auch ein Machtfaktor, denn was würde passieren, wenn eine Abteilung einer anderen Abteilung Daten zur Verfügung stellte und diese damit Sachen vollbrächte, die die eigentliche „Besitzerin“ der Daten nicht zustande gebracht hatte? Das Gleiche gilt für Daten, die die Profitabilität einer bisher anerkannten Abteilung in Frage stellen und somit alles, woran die Mitarbeiter bisher geglaubt haben. Nicht umsonst tun sich viele Unternehmen damit schwer, von früher erfolgreichen Modellen los zu lassen. Gleichzeitig wird gerne der Datenschutz vorgeschoben, um Daten nicht teilen zu müssen. Wer Zugang zu Daten hat und sie versteht, erhält somit auch die Deutungshoheit.

Die Arbeit mit Daten ist also nicht allein eine informations-technologische, sondern auch eine politische. Will ein Unternehmen daten-basiert arbeiten, so verlangt dies auch einen Change Management-Prozess, der alle Beteiligten mitnimmt.

Nächster Abschnitt: Analyse, Analytics, Statistik, Data Science – Was denn jetzt?

Generelle Methoden

Generell wird unterschieden zwischen einer qualitativen und einer quantitativen Erhebung (analog zur qualitativen und quantitativen Forschung). Qualitative Methoden zur Erhebung sind unter anderem Interviews, Beobachtungen oder Einzelfallbeobachtungen (das, was ich im Kurs gerne als “anekdotische Evidenz” bezeichne). Ziel ist es hier, dass subjektive Sichtweisen erhoben werden. Quantitative Methoden sind zum Beispiel Experimente und das Messen. Qualitative Methoden sind wichtig zur Entdeckung von Hypothesen, quantitative Methoden können diese Hypothesen bestätigen. Fragebögen können qualitativ oder quantitativ sein: Kann der Befragte freie Antworten geben, so wäre der Fragebogen qualitativ (wobei vorab festgelegte Fragen eher hinderlich sind für die Exploration), kann der Befragte nur vorgegebene Antwortmöglichkeiten ankreuzen, so ist es eine quantitative Erhebung.

Nächster Abschnitt: Umfragen und Interviews