data > opinion

Tom Alby

3 Datenakquise

2020-02-22


Sie sind hier: start / lehrveranstaltungen / digital analytics / 03 datenakquise /

Erst nachdem das Ziel einer Analyse klar definiert ist, geht es an die Daten-Akquise. Natürlich müssen nicht immer neue Daten besorgt werden; häufig stellt man aber fest, dass wichtige Daten fehlen und man sich nicht mit den Daten zufrieden geben sollte, die zur Verfügung stehen.

Wir beschäftigen uns im Rahmen des Kurses zwar vor allem mit der Akquise und Analyse von Webseiten-Nutzungsdaten, allerdings gilt für viele verschiedene Methoden dasselbe Prinzip für die spätere Analyse: Man muss verstehen, wie Daten akquiriert worden sind, bevor man sie analysiert oder für etwas verwendet, denn wenn dies nicht verstanden wird, so kann in der Analyse einiges schief laufen und die Ergebnisse sind unbrauchbar oder falsch, ohne dass man es bemerkt. Das gilt für Webanalyse-Daten ebenso wie für Umfrage-Ergebnisse oder Daten von Statista. Idealerweise hat man immer Zugriff auf die Rohdaten, um die Ergebnisse einer Analyse nachvollziehen zu können; häufig ist dies aber nicht möglich, so dass man zumindest verstehen muss, wie die Daten akquiriert wurden, um Fehlinterpretationen zu vermeiden.

Wenn es zum Beispiel darum geht das Potential von Traffic-Quellen für die eigene Webseite zu analysieren, dann lohnt es sich manchmal etwas genauer nachzusehen, wie bestimmte Aussagen wie „Printwerbung ist kaufanregender als Werbung in Social Media“ zustande kommen. Oder warum Pinterest nun toll sein soll für über 60-Jährige. Gleichzeitig zeigen solche Fragestellungen aber auch eine große Einschränkung der Webanalyse: Wir haben nur Daten über unsere bisherigen Nutzer und wissen nicht, wie der Rest „da draußen“ ticket. Hierfür sind andere Datenquellen abseits der Webanalyse-Tools hilfreich, die in den folgenden Abschnitten beschrieben werden.

Allgemeine Methoden

Generell wird unterschieden zwischen einer qualitativen und einer quantitativen Erhebung (analog zur qualitativen und quantitativen Forschung). Qualitative Methoden zur Erhebung sind unter anderem Interviews, Beobachtungen oder Einzelfallbeobachtungen (das, was ich im Kurs gerne als „anekdotische Evidenz“ bezeichne). Ziel ist es hier, dass subjektive Sichtweisen erhoben werden. Quantitative Methoden sind zum Beispiel Experimente und das Messen. Qualitative Methoden sind wichtig zur Entdeckung von Hypothesen, quantitative Methoden können diese Hypothesen bestätigen. Fragebögen können qualitativ oder quantitativ sein: Kann der Befragte freie Antworten geben, so wäre der Fragebogen qualitativ (wobei vorab festgelegte Fragen eher hinderlich sind für die Exploration), kann der Befragte nur vorgegebene Antwortmöglichkeiten ankreuzen, so ist es eine quantitative Erhebung.

Umfragen

Eine typische Reaktion auf die Frage, was Nutzer wollen oder brauchen, ist die Antwort „Warum fragen wir sie nicht einfach?“ Umfragen und Interviews mögen einfach aussehen, zumal es eine Vielzahl von Webtools dafür gibt, aber sie sind eine Wissenschaft für sich. Die richtigen Fragen zu stellen, das geeignete Sample zu identifizieren und zu befragen, die Antworten statistisch korrekt auszuwerten, all dies ist komplexer als die vielen Tools es glauben machen.

  • Man kann nicht einfach auf die Straße gehen und Menschen befragen (auch Convenience Sampling genannt. So haben manche Menschen eine geringere Bereitschaft sich befragen zu lassen, und gerade diese Non Respondents fehlen dann in der Befragung.
  • Gerade bei Fragebögen gibt es Nutzer, die schnell durchkommen wollen und je nach Präferenz ein yes bias, no bias oder bias towards the middle zeigen. Hier kann es helfen, eine Frage in ihrem Sinn umzudrehen, um diese Teilnehmer zu identifizieren.
  • Soziale Erwünschtheit ist ein weiteres Problem in Fragebögen oder Interviews: Wer gibt schon gerne zu, dass er oder sie Frühstücksfernsehen schaut?

Experimente

Das klassische Experiment ist ein a/b-Test, bei dem eine Kontrollgruppe mit einer Testvergruppe verglichen wird, die ein „Treatment“ erhalten hat. Durch den Test soll die Wirkung des Treatments herausgefunden werden. Das kann so funktionieren, dass eine Gruppe von Kranken in zwei Untergruppen geteilt wird, von denen eine Subgruppe ein Placebo erhält und die andere Subgruppe ein richtiges Medikament. Ist die Wirkung des Medikaments statistisch signifikant besser als das des Placebos, so wird eine allgemeine Wirkung des Medikaments angenommen. In der Internetwelt wird einem Teil der Nutzer etwas anderes angezeigt als einem anderen Teil und dann die Wirkung, zum Beispiel eine Änderung im Kaufverhalten gemessen.

Offene Quellen

best4planning

best4planning ist ein Angebot vom Zusammenschluss mehrerer Verlage. Für die Daten von 2017 wurden über 30.000 Menschen befragt, gleichzeitig wird über ein Panel die Nutzung von Medien sowie das Einkaufsverhalten gemessen. Die resultierenden Daten werden dann auf die Gesamtbevölkerung ab 14 Jahre hochgerechnet.

Facebook

Facebook bietet seinen Werbekunden die Möglichkeit, Werbung nach den demografischen Daten und den Interessen von Nutzern auszuspielen. Dabei sieht der Werbetreibende gleich, wie viele Menschen er auf Facebook damit erreichen kann.

Durch die Verbindung verschiedener Interessen können so einzelne Segmente quantifiziert werden.

Google AdWords/Ads Keyword Planner

Das tatsächliche Ausmaß an Suchanfragen kann mit dem Google Keyword Planer ermittelt werden. Dieses Tool ist Bestandteil von Google AdWords/Ads. Es ermöglicht, bis zu 48 Monate zurück zu schauen, wie das Suchvolumen für spezifische Suchbegriffe aussah, allerdings nur ausgehend vom Vormonat des heutigen Tages. Auch sind mehr oder weniger genaue Daten nur für die Kunden zu sehen, die auch bei Google AdWords genug Geld ausgeben. Google Trends hingegen erlaubt es dem Nutzer, ein paar Minuten alte Daten zu sehen, nur sind diese wie gesagt nicht absolut.

Google (Audience) Insights

Die Daten standen früher allen Google AdWords-Kunden zur Verfügung, können aber heute nur noch bei einem Google Account Manager angefragt werden, sofern man einen hat 🙂

Google Webmaster/Search Console

Die Google Search Console, früher Webmaster Console genannt, ist ein Webdienst, durch den Webmaster sehen können, wie eine Seite in den organischen Suchergebnissen „performt“. Natürlich kann man nur die Daten von der eigenen Webseite sehen; diese muss verifiziert werden. Daten von der Webmaster Console können in Google Analytics eingebunden werden.

Google Consumer Barometer

Im Consumer Barometer werden Befragungsdaten aus der ganzen Welt zu gleichen Fragen aggregiert, um ein Bild über die Nutzung von Online- und Offline-Medien und dem Kaufverhalten zu gewinnen. Die Daten werden jährlich aktualisiert.

Govdata

Govdata ist ein Portal der Senatskanzlei Hamburg, die für mehrere Bundesländer Daten veröffentlicht.

Statista

Statista ist ein Portal, auf dem Studien aus verschiedenen Quellen gesammelt und bereitgestellt werden. Dabei sind auch Studien von Statista selbst in Auftrag gegeben. Manche Studien sind frei verfügbar, ansonsten muss ein Zugang dafür bezahlt werden.

Es ist hier genau auf die Quelle zu achten, da nicht alle Quellen gleichmäßig vertrauenswürdig sind.

YouGov Brandindex

Die Firma befragt regelmäßig 200.000 Konsumenten in mehreren Ländern in Bezug auf viele verschiedene Variablen. Daraus entstehen dann Profile, die entweder über eine Maske abgefragt werden können oder deren wichtige Variablen (Brand Perception einer Marke zum Beispiel) gemonitored werden können. Der Zugang ist nicht günstig, einige Daten können aber auch kostenlos abgefragt werden.

Tracking

Server Logfiles

You are here: Home / Lehre, Vorträge & Seminare / Digital Analytics / Die Datenakquise / Tracking / Server Log Files Server Log Files In den frühen Tagen des Webs (und zum Teil noch heute) wurden vor allem die Log-Dateien des Webservers ausgewertet. Diese haben ungefähr das folgende Format:

66.249.83.x − − [25/Aug/2014:05:39:15 +0200] “GET / datei . html HTTP/1.1” 200 17818 www.domain.de “http ://www.google.de/url?sa=t &rct=j&q=&esrc=s&source=web&cd=2 &ved=0CFEQFjAD&url=http%3A%2F%2Fwww.domain.de/datei.html&ei=tK_6U4nlKpzZ6APBfg &usg=AFQjCNFOJZuerl_SuAT−rLgxVjADIww6LA” “Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident /4.0; SLCC2; .NET CLR 2.0.50727; .NETCLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; InfoPath .3)” “−”

Die Logdatei enthält in der Regel also die IP-Adresse des Benutzers (in diesem Fall wurde das letzte Oktet anonymisiert), das Datum und die Uhrzeit, die Datei, die abgerufen wurde, den HTTP-Status, die Bytes, die übertragen werden, den Referrer,5, den Browser und das Betriebssystem. Es wird nicht erkannt, ob derselbe Benutzer vorher schon einmal da gewesen ist.

Aus diesen Logdateien wurden automatisiert grafisch aufbereitete Auswertungen generiert. Hier werden die einzelnen gerade genannten Merkmale summiert und zum Teil auch weiter ausgewertet. Mitunter sieht man auch heute noch größere Unternehmen mit sol- chen Statistiken arbeiten, meistens mit Hinweis auf Datenschutzprobleme bei der Nutzung fortschrittlicherer Systeme.

Aber es gibt tatsächlich immer noch Gründe, die Webserver-Daten genauer anzusehen: Die zunehmende Anzahl von Tracking-Verweigerern zum einen sowie der Crawl-Traffic wird von den regulären Web Analytics-Systemen nicht erfasst, da die meisten Bots das von den Trackingsystemen eingebundene JavaScript nicht interpretieren. Die Daten aus den altmodischen Weblogs können also immer noch nützlich sein, und sei es nur dazu, Server-Ressourcen freizusetzen, indem unnütze Bots gesperrt werden.

Es ist als Nutzer nicht möglich, dieses Tracking zu unterbinden, auch wenn man den Do not Track-Modus des Browsers aktiviert hat.

Pixel / Tagging

In den frühen Tagen des Webs wurden Webseitenzugriffe auch dadurch gemessen, dass ein Zähl-Pixel in Form einer Grafikdatei von einem Webtracking-Dienst eingebunden wurde. Da die Ressourcen im Netz knapp waren und viele Nutzer sich noch mit einem langsam Modem einwählten, durfte dieses Bild nicht besonders schwer in Bezug auf die Ladezeit sein, so dass es nicht mehr als 1×1 Pixel groß war. Wie wir im vorherigen Abschnitt über Weblog-Tracking gesehen haben, reicht der Abruf einer Ressource von einem Server aus, um den zugreifenden Nutzer zu tracken.

Heutzutage heißen die Tracking-Pixel immer noch Pixel, manchmal auch Tags, obwohl sie in der Regel nicht mehr aus dem 1×1 Pixel-großen Bild bestehen. Stattdessen wird JavaScript verwendet. Trotz des Namens hat JavaScript nichts mit Java zu tun; eigentlich hieß es LiveScript, aber irgendjemand bei Netscape fand den Namen JavaScript angesichts des Buzz von Java anscheinend besser. JavaScript hat den Vorteil, dass damit kleine Programme im Browser des Nutzers ausgeführt werden können.

Die Tracking-Skripte von Google Analytics und vielen anderen Tracking-Systemen basieren auf JavaScript. Sie werden zunächst einmal nur ausgeführt, wenn eine Seite geladen worden ist, weil der Browser das JavaScript interpretieren muss. Dies hat eine wichtige Bedeutung für die Interpretation der Zahlen in Google Analytics.

Cookies

Cookies sind kleine Textdateien, die eine Website über den Browser auf der Festplatte des Benutzers abspeichern kann. In diesen Dateien wird zum Beispiel gespeichert, ob der Nutzer eine Webseite bereits besucht hat, sie ermöglichen es also, einen Benutzer wiederzuerkennen. Eine Seite kann mehr als einen Cookie setzen, es können auch Cookies von anderen Seiten gesetzt werden. In diesem Fall spricht man übrigens von einem 3rd Party Cookie, wobei der von Google Analytics gesetzte Cookie zum Beispiel ein First Party Cookie ist. Vom eigenen Server selbst gesetzte Cookies sind 1st Party Cookies (Das darf nicht verwechselt werden mit 1st, 2nd und 3rd Party Data). Cookies haben eine definierte Laufzeit, der Google Analytics Cookie hat zum Beispiel eine Laufzeit von 2 Jahren, was aber auch konfiguriert werden kann.

Eine Website kann nur die eigenen Cookies auslesen, nicht die anderer Websites. Es wäre zum Beispiel möglich, dass man sich eine befreundete Website sucht, die man dann Cookies von ihrer Domain setzen lässt und umgekehrt. So kann dann auf die Nutzer dieser befreundeten Seite „getargeted“ werden.

Cookies sind deshalb so wichtig, weil ein reines Klick-Tracking (Wie oft wurde etwas angeklickt?) keine Aussage darüber trifft, ob ein Nutzer vielleicht mehrmals geklickt hat. So wird zum Beispiel in der Web Analyse unterschieden zwischen Aufrufen einer Seite und eindeutigen Besuchern einer Seite. Wir wollen nicht nur wissen, wie oft eine Seite aufgerufen oder ein Link angeklickt wurde, sondern auch, ob dies immer wieder neue oder auch wiederkehrende Nutzer waren. Daher wird Klick-Tracking durch Cookies ergänzt.

Cross Device Tracking

Cookies werden stets auf dem Gerät und in dem Browser abgelegt, mit dem man gerade im Netz unterwegs ist. Die Realität heute ist, dass Nutzer sich nicht auf ein Gerät beschränken, sondern mehrmals am Tag die Geräte wechseln. Fast jeder trägt ein Mobiltelefon mit sich, darüber hinaus befinden sich in vielen Haushalten mittlerweile Tablets, ganz abgesehen von Desktop-Rechnern und Laptops zuhause und bei der Arbeit. Das hat zur Folge, dass in der Regel nicht identifiziert werden kann, ob ein Benutzer mit einem anderen Gerät oder einem anderen Browser wiederkommt. Im Prinzip dürfte man im Rahmen der Webanalyse nicht von Nutzern, sondern lediglich von Browsern sprechen. Eine Ausnahme bilden hier Seiten, die durch Logins eine eigene User ID vergeben können.

Wer also auf dem Mobiltelefon recherchiert und später auf einem Desktop- Rechner kauft, führt den Daten- und Web-Analysten in schwierige Gewässer, sofern eine Webseite nicht mit Logins arbeitet oder das System bereits eine Indikation des Cross Device-Verhaltens mitliefert. Zum einen wird der Benutzer auf dem Mobiltelefon eventuell noch Retargeting- Maßnahmen ertragen müssen, zum anderen werden Zahlen verzerrt. Denn wenn ein Benutzer auf dem Mobiltelefon nichts kauft, dann wird der eingekaufte Traffic hier unter Umständen als sinnlos angesehen, die Trafficquelle auf dem Gerät, auf dem der Abschluss statt- fand, aber als gewinnbringender. Kann ein Geräte-übergreifendes Tracking (der englische Begriff „Cross Device Tracking“ geht etwas leichter über die Lippen) nicht gewährleistet werden, so sind alle Zahlen mit Vorsicht zu genießen.

2018 führte Google Analytics Cross Device Tracking auch für Nutzer ohne Login ein; diese Daten sind aber nicht über die API verfügbar.

Tag Management

Tag Management Systeme bieten eine Art Platzhalter oder Container, der einmal auf einer Website eingebunden wird, so dass dann weitere „Tags“ eingebaut werden können, ohne den Code der Website noch einmal anfassen zu müssen. Da heutige Websites mehr und mehr Tags einbinden und Marketing-Menschen in der Regel keinen Zugriff auf den Code der Seite haben, ermöglicht der Tag Manager den unkomplizierten Einbau neuer Tags, ohne dass die IT dafür gefragt werden muss. Gleichzeitig kann ein Data Layer konfiguriert werden, so dass darin Informationen zwischen Skripten auf der Website ausgetauscht werden können, zum Beispiel Warenkorb-Informationen.

Im Google Tag Manager wird unterschieden zwischen:

  • Tags: Tags sind das Gleiche wie JavaScript-Pixel, die zur Messung verwendet werden. Sie werden durch Trigger „gefeuert“.
  • Trigger sind Auslöser, sie „feuern“ Tags. Ein Trigger kann zum Beispiel ein Seitenaufruf sein, ein Klick, eine Mausbewegung, oder einfach nur der Ablauf von einer Zeitspanne
  • Variablen speichern Werte; vorgebene Werte sind zum Beispiel die Seiten-URL, die gerade aufgerufen wurde; es können auch eigene Variablen definiert und gefüllt werden

Eine besondere Rolle spielen Events, die im nächsten Abschnitt behandelt werden.

Events

Pageviews oder Seitenaufrufe waren viele Jahre die Hauptwährung in der Webanalyse. Im Prinzip sind sie aber relativ sinnfrei, denn wir wissen ja nicht, ob ein Nutzer die Inhalte auf der Seite tatsächlich gelesen hat oder nicht. Auch wissen wir zum Beispiel bei der letzten Seite, die ein Nutzer besucht, nicht, wie lange er auf dieser Seite gewesen ist (siehe Details hier).

JavaScript ermöglicht das Auslösen von Events bzw. Ereignissen, zum Beispiel durch eine Nutzeraktion, aber auch automatisiert, nachdem eine Seite ausgeliefert wurde. Dadurch ist ein granulareres Messen der Interaktion von Nutzern mit einer Seite möglich.

Natürlich lädt dies auf den ersten Blick dazu ein, einfach einmal alles zu tracken; allerdings „schießt“ jedes Event einen Hit an Google Analytics, von denen aber nur bis zu 10.000.000 pro Monat kostenlos sind. Außerdem werden nur 500 Events pro Session gezählt. Daher ist es umso wichtiger, dass man sich genau überlegt, welche Events wirklich wichtig sind zur Messung der Zielerreichung. Auch bedeutet das Sammeln von Daten nicht, dass diese auch sinnvoll ausgewertet werden können. Bei der Scroll-Tiefe zum Beispiel kann ein Wert von 75% für zwei Seiten unterschiedliche Bedeutungen haben, je nachdem wie unterschiedlich lang die beiden Seiten sind.

Tools

Google Tag Assistant

Der Google Tag Assistant für Chrome erlaubt das Beobachten von Tags und den von ihnen gespeicherten Variablen.

Dieses Tool kann genutzt werden, auch wenn man keinen Zugriff auf die Google Analytics Property hat. Es zeigt zudem auch Werte an, die im Debugger noch nicht zu sehen sind, wie zum Beispiel hier die Werte der Custom Dimensions.

Das Killer Feature ist hier aber die Möglichkeit, die feuernden Tags aufzunehmen und sich sozusagen eine Sequenz anzeigen zu lassen, die „gefilmt“ wird, während man selbst die Seite lädt oder mit ihr interagiert. Dies ist ein sehr guter Weg, um Fehler zu finden, aber auch um herauszufinden, was eine Seite eigentlich genau trackt.

Der Google Tag Assistant funktioniert nicht, wenn Google Analytics über sendBeacon die Daten schickt, da hier ein Post-Request genutzt wird und kein Get-Request. Für den Anwender sieht es so aus als ob Google Analytics nicht mal installiert wäre. Hier hilft der Google Analytics Debugger.

Google Analytics Debugger

Ein weiteres Tool, um zu beobachten, ob ein Tracking funktioniert oder was von einer Seite getracked wird, ohne dass wir Zugriff auf die Seite haben, ist der Google Analytics Debugger. Dieser kommt etwas technischer daher, aber auch hier kann sehr genau nachvollzogen werden, was im Tracking passiert.

m die Daten zu sehen, muss in Chrome unter Anzeigen -> Entwickler -> Entwicklertools die Console ausgewählt werden.

Adobe Debugger

Similar to the Google Tag Manager, Adobe has their own debugger. The nice thing here is that you can see everything that happens in a second browser window.

Tracker-unabhängige Ansätze

Entwicklertools/Network

In Chrome unter Ansicht -> Entwickler -> Entwickler-Tools den Abschnitt Network auswählen, Seite laden und dann beobachten, was alles genau geladen wird.

Wählt man wie in dem Beispiel oben „collect“ aus, so sieht man, was Google Analytics gerade „nach Hause“ schickt, in diesem Fall ein Event für Element Visibility.

Eine kleine Checkliste

Eine gute Einführung, wie ein Datenschutz-kompatibler Optout-Link für Google Analytics im Google Tag Manager bereitgestellt werden kann, findet sich hier.