Literatur

The Joy of Data

Alles geht auf Philiosophie zurück 🙂 Und das Internet wäre ohne die Briten nicht möglich gewesen. Erinnert mich etwas an den UK-Pavilion auf der Expo 2000, in dem der iMac ausgestellt wurde. Schließlich wurde auch dieser von einem Briten, Jonathan Ive, entworfen. Ansonsten eine absolut empfehlenswerte Dokumentation.

Über diesen Kurs

Das Ziel dieses Kurses ist nicht, die Bedienung von Tools wie Google Analytics, Adobe Analytics, der Google Webmaster Console oder den Umgang mit Machine Learning-Algorithmen zu vermitteln. Vielmehr geht es darum, die Kompetenz zu vermitteln, wie an analytische Probleme herangegangen wird. Die Werkzeuge sind nur ein Mittel zum Zweck. Nicht umsonst heißt es:

A fool with a tool is still a fool.

Die Bedienung eines Tools kann man schnell ergooglen, den Denkansatz aber nicht. Und der ist viel wichtiger als genau zu wissen, welche Dimension mit welcher Metrik in einem Tool miteinander verbunden werden kann oder wie die Formel für einen bestimmten Algorithmus genau aussieht. Denn die Tools entwickeln sich schnell weiter, so dass jedes Wissen über das Tool veraltet ist, bevor der Kurs abgeschlossen wird. Der Denkansatz aber wird sehr wahrscheinlich auf absehbare Zeit gleich bleiben.

Für die Herangehensweise an analytische Probleme werden Statistik-Grundlagen vermittelt. Die Webanalyse wird noch viel zu häufig ohne diese Grundlagen durchgeführt, doch spätestens wenn sich eine Datenanalyse nicht nur auf reine Webanalyse-Daten bezieht, sind diese notwendig. Mit diesen Grundlagen gewappnet schnuppern wir in die ersten Bereiche des derzeit gehypten Bereichs Data Science hinein.

Wir werden uns vorrangig mit Google Tools beschäftigen, nicht weil diese unbedingt besser sind, sondern weil viele davon kostenlos verfügbar sind und deswegen auch einfach ausprobiert werden können. Die in dem Kurs vermittelten Kenntnisse sollten ausreichen, um die Google Analytics Individual Qualification zu bestehen und für die Zertifizierung der Digital Analytics Association vorbereitet zu sein.

Nächster Abschnitt: Einführung

Cookies

Cookies sind kleine Textdateien, die eine Website über den Browser auf der Festplatte des Benutzers abspeichern kann. In diesen Dateien wird zum Beispiel gespeichert, ob der Nutzer eine Webseite bereits besucht hat, sie ermöglichen es also, einen Benutzer wiederzuerkennen. Eine Seite kann mehr als einen Cookie setzen, es können auch Cookies von anderen Seiten gesetzt werden, zum Beispiel, indem ein Bild von einem anderen Server geladen wird (zum Beispiel ein Werbebanner oder ein 1×1 Pixel großes Bild, das treffenderweise auch Pixel genannt wird; umgangssprachlich wird auch ein JavaScript zT als Pixel bezeichnet, dies ist aber fachlich nicht korrekt). In diesem Fall spricht man übrigens von einem 3rd Party Cookie, wobei der von Google Analytics gesetzte Cookie zum Beispiel ein solcher Third Party Cookie ist. Vom eigenen Server selbst gesetzte Cookies sind 1st Party Cookies (Das darf nicht verwechselt werden mit 1st, 2nd und 3rd Party Data!). Cookies haben eine definierte Laufzeit, der Google Analytics Cookie hat zum Beispiel eine Laufzeit von 2 Jahren.

Eine Website kann nur die eigenen Cookies auslesen, nicht die anderer Websites. Es wäre zum Beispiel möglich, dass man sich eine befreundete Website sucht, die man dann Cookies von ihrer Domain setzen lässt und umgekehrt. So kann dann auf die Nutzer dieser befreundeten Seite „getargeted“ werden.

Cookies sind deshalb so wichtig, weil ein reines Klick-Tracking (Wie oft wurde etwas angeklickt?) keine Aussage darüber trifft, ob ein Nutzer vielleicht mehrmals geklickt hat. So wird zum Beispiel in der Web Analyse unterschieden zwischen Aufrufen einer Seite und eindeutigen Besuchern einer Seite. Wir wollen nicht nur wissen, wie oft eine Seite aufgerufen oder ein Link angeklickt wurde, sondern auch, ob dies immer wieder neue oder auch wiederkehrende Nutzer waren. Daher wird Klick-Tracking durch Cookies ergänzt.

Cross Device Tracking

Cookies werden stets auf dem Gerät abgelegt, mit dem man gerade im Netz unterwegs ist. Die Realität heute ist, dass Nutzer sich nicht auf ein Gerät beschränken, sondern mehrmals am Tag die Geräte wechseln. Fast jeder trägt ein Mobiltelefon mit sich, darüber hinaus befinden sich in vielen Haushalten mittlerweile Tablets, ganz abgesehen von Desktop-Rechnern und Laptops zuhause und bei der Arbeit. Das hat zur Folge, dass in der Regel nicht identifiziert werden kann, ob ein Benutzer mit einem anderen Gerät wiederkommt.

Wer also auf dem Mobiltelefon recherchiert und später auf einem Desktop- Rechner kauft, führt den Daten- und Web-Analysten in schwierige Gewässer, sofern eine Webseite nicht mit Logins arbeitet oder das System bereits eine Indikation des Cross Device-Verhaltens mitliefert. Zum einen wird der Benutzer auf dem Mobiltelefon eventuell noch Retargeting- Maßnahmen ertragen müssen, zum anderen werden Zahlen verzerrt. Denn wenn ein Benutzer auf dem Mobiltelefon nichts kauft, dann wird der eingekaufte Traffic hier unter Umständen als sinnlos angesehen, die Trafficquelle auf dem Gerät, auf dem der Abschluss statt- fand, aber als gewinnbringender. Kann ein Geräte-übergreifendes Tracking (der englische Begriff „Cross Device Tracking“ geht etwas leichter über die Lippen) nicht gewährleistet werden, so sind alle Zahlen mit Vorsicht zu genießen.

 

Von Zielen zu KPIs

KPIs (Key Performance Indicators) sind keine Ziele. Oft werden KPIs berichtet, doch ohne Bezug zu einem Ziel sind KPIs wertlos. Dies ist auch ein häufiger Grund dafür, dass Berichte nicht gelesen werden, denn was soll damit anfangen, dass zum Beispiel die Anzahl der Besucher einer Webseite von 30.000 auf 29.500 pro Monat gefallen sind?

Erst nach der Klärung der Ziele können KPIs definiert werden. Die folgende Grafik zeigt den Prozess:

KPIs sind auch keine Metriken. Aber KPIs können mit Metriken gemessen werden. Dies soll an einem Beispiel verdeutlicht werden: Ein Segler möchte von Hamburg nach Helgoland segeln, um dort ein Fischbrötchen zu essen. Er weiß, dass die Fischbrötchenbuden nur bis 16 Uhr geöffnet haben. Sein Ziel ist SMART, denn es ist spezifisch (Fischbrötchen auf Helgoland), es ist messbar (Fischbrötchen im Magen), es ist immens attraktiv (Fischbrötchen!!!), es ist realistisch (man kann von Hamburg nach Helgoland segeln) und es ist terminiert (bis 16 Uhr). Auf See wird sich unser Segler immer wieder KPIs ansehen, die ihm helfen zu verstehen, ob er auf dem richtigen Kurs ist, sein Ziel zu erreichen, oder ob er korrigierende Maßnahmen einleiten muss. Die Geschwindigkeit ist ein KPI, die in der Metrik Knoten gemessen wird. Weitere KPIs sind Wind, Koordinaten, etc.

Hier werden für das Verständnis der folgenden Abschnitte Metriken erläutert, die im Online-Marketing verwendet werden:

  • CTR: Abkürzung für Click Through Rate, auf Deutsch Klickrate. Wird eine Anzeige zum Beispiel 100 Mal eingeblendet und 2 Mal angeklickt, so ergäbe das eine Klickrate von 2%.
  • CPC: Cost per Click, Kosten pro Klick. Bei AdWords wird der Preis für einen Klick auf eine Anzeige zum Beispiel in einer Auktion bestimmt.
  • CVR: ConversionRate, Konversionsrate .Von 100 Besuchern auf einer Website kauft nur einer etwas im Shop, so dass die CVR dann bei 1% liegt
  • CPO: Cost per Order, Kosten pro Bestellung. Angenommen, wir bezahlen für die 100 Nutzer im vorigen Beispiel 100 Euro (1 Euro CPC), dann läge der CPO bei einer CVR von 1% bei 100 Euro
  • CPA: Cost per Acquisition, ähnlich wie CPO, wird aber für Transaktionen genutzt, die keine Order sind, zum Beispiel Kosten pro Fan bei Facebook.
  • CPM/TKP: Cost per Mille oder Tausendkontaktpreis. Der TKP ist eine Währung, die schon bei Printmagazinen genutzt wurde und beschreibt wie viel Geld man für eine Anzeige zahlt bei einer Auflage pro 1000 Stück.
  • KUR: Kosten-Umsatz-Relation, eine Alternative zum CPO. Hier werden die Gesamtkosten (CPO) durch den Umsatz geteilt, auch nach Retouren.
  • CLV:CustomerLifetimeValue;einKundekaufteventuellnichtnureinmal, sondern mehrmals. Der erste Kauf ist für den Verkäufer nicht profitabel, die weiteren aber schon. Ein gutes Beispiel sind hier Drucker und Tintenpatro- nen.
  • Sitzung/Session: Kommt ein Benutzer auf eine Website, so beginnt das,was in Google Analytics eine Sitzung oder auf Englisch Session genannt wird. Der Benutzer schaut sich mehrere Seiten der Website an, alles innerhalb einer Sitzung. In Analytics ist eine Sitzung mit 30 Minuten definiert, wobei diese 30 Minuten immer wieder neu beginnen, wenn der Benutzer mit der Website interagiert. Die Session endet aber spätestens um Mitternacht oder wenn der Benutzer die Website verlässt und über einen anderen Kanal zurückkehrt. Die Sessiondauer kann außerdem definiert werden.
  • Unique User: Derselbe Benutzer kann mehrmals auf eine Website kommen und mehrere Sitzungen auslösen. Es ist aber immer derselbe Nutzer und wird als unique user bezeichnet.

Nächster Abschnitt: Von Daten zur Handlungsrelevanz

Tag Management

Tag Management Systeme bieten eine Art Platzhalter, der einmal auf einer Website eingebunden wird, so dass dann weitere „Tags“ eingebaut werden können, ohne den Code der Website noch einmal anfassen zu müssen. Da heutige Websites mehr und mehr Tags einbinden und Marketing-Menschen in der Regel keinen Zugriff auf den Code der Seite haben, ermöglicht der Tag Manager den unkomplizierten Einbau neuer Tags, ohne dass die IT dafür gefragt werden muss. Gleichzeitig kann ein Data Layer konfiguriert werden, so dass darin Informationen zwischen Skripten auf der Website ausgetauscht werden können, zum Beispiel Warenkorb-Informationen.

Wir unterscheiden im Google Tag Manager zwischen:

  • Tags
  • Trigger
  • Variablen

Eine gute Einführung, wie ein Datenschutz-kompatibler Optout-Link für Google Analytics im Google Tag Manager bereitgestellt werden kann, findet sich hier.

Keine Angst vor Daten!

Nicht alle Menschen sind beim Anblick eines Dendrograms oder einer langen Zahlenkolonne von der Neugier gepackt; nicht selten kommen auch negative Emotionen zum Vorschein. Eine Erklärung dafür ist, dass nicht jeder während der Schulzeit gute Erfahrungen im Matheunterricht hatte und dementsprechend weniger gute Erinnerungen geweckt werden. Hinzu kommt, dass sich viele auch nicht trauen nachzufragen, wenn sie etwas nicht verstehen. Und so sitzen viele Menschen in Meeting-Räumen zusammen und schauen sich Zahlen an, die sie nicht verstehen und auch nicht hinterfragen.

Für denjenigen, der Daten vermitteln muss, bedeutet das, dass das Datenmaterial in eine „Story“ gepackt werden muss, wie es auf Neudeutsch heißt. Damit stehen nicht die Zahlen im Vordergrund, sondern das, was die Zahlen bedeuten. Allerdings sind schlechte Erinnerungen an den Matheunterricht nicht der einzige Grund für Skepsis gegenüber Daten.

Trotz aller Lippenbekenntnisse, wie wichtig Daten sind, hat die Statistik als Daten-Disziplin keinen guten Ruf. “Trau keiner Statistik, die Du nicht selber gefälscht hast” ist nur ein Beispiel dafür, dass Zahlen misstraut wird. Wie einfach mit Zahlen gespielt werden kann, wird tatsächlich auch im Statistik-Abschnitt besprochen, aber wenn der Daten-Disziplin misstraut wird, wie kann dann ernsthaft mit Daten gearbeitet werden?

Angst vor Gesichtsverlust

Zahlen und Daten haben einen weiteren Nebeneffekt, der ebenfalls psychologischer Natur ist. Neben der Angst davor, dass man die Zahlen nicht versteht, kann auch eine mindestens latente Angst existieren, dass durch Zahlen und Daten das eigene Tun messbarer und damit auch vergleichbarer wird. Wenn zum Beispiel gemessen wird, ob ein Text auf einer Webseite tatsächlich gelesen wird, dann hat dies den ganz großen Nachteil, dass auch herauskommen kann, dass der Text nicht gelesen wird. Wenn viel Zeit in den Text investiert wurde, dann kann dies zu einer Enttäuschung führen, die man gerne vermeiden möchte.

Ähnlich sieht es aus, wenn man sich schon eine Meinung gebildet hat, sich nun aber mit Daten konfrontiert sieht, die diese Meinung widerlegen. Es ist nicht untypisch, dass Menschen von sich selbst auf andere schließen („n=1“ oder „anekdotische Evidenz“ genannt) und allein ihre Erfahrung und Erlebnisse zu einer Meinungsbildung verwenden. Oder dass nur Daten gesucht werden, die die eigene Meinung unterstützen (ein sogenannter Bestätigungsfehler). Hier kann es mitunter schwierig sein, Daten sprechen zu lassen, wenn eine Meinung schon gebildet wurde, denn auch dies könnte einen Gesichtsverlust bedeuten. Man stelle sich vor, dass einem religiösen Menschen gesagt wird, dass Daten existieren, dass sein Gott nicht existiert; dies bedeutet einen Verlust, der emotional nicht zu unterschätzen ist. In der Sozialpsychologie wird dies auch als kognitive Dissonanz bezeichnet.

Aufbrechen von Daten-Silos

Nicht das Unvermögen der Mitarbeiter, sondern vielmehr die Struktur eines Unternehmens verhindert nicht selten den intelligenten Umgang mit Daten. In fast allen Unternehmen existiert eine Vielzahl von Daten, aber das bedeutet nicht, dass diese für alle Mitarbeiter verfügbar sind. Allein schon aus Datenschutzrechtlichen Gründen ist dies nicht möglich. Nicht ntypisch ist zum Beispiel, dass die IT die Customer Relationship Management-Datenbank betreut, das Marketing die Marketing-Daten wie Web Analytics oder Tracking-Daten von Marketing- Kampagnen, und das Produktmanagement die Produktnutzungsdaten (sofern diese erhoben werden). Manche Abteilungen sprechen unterschiedliche Sprachen, so dass das Marketing zum Beispiel nicht so gut mit der IT sprechen kann, weil ein ganz anderes Vokabular genutzt und ein anderer Wissensstand vorausgesetzt wird.

Daten sind auch ein Machtfaktor, denn was würde passieren, wenn eine Abteilung einer anderen Abteilung Daten zur Verfügung stellte und diese damit Sachen vollbrächte, die die eigentliche „Besitzerin“ der Daten nicht zustande gebracht hatte?  Das Gleiche gilt für Daten, die die Profitabilität einer bisher anerkannten Abteilung in Frage stellen und somit alles, woran die Mitarbeiter bisher geglaubt haben. Nicht umsonst tun sich viele Unternehmen damit schwer, von früher erfolgreichen Modellen los zu lassen. Gleichzeitig wird gerne der Datenschutz vorgeschoben, um Daten nicht teilen zu müssen. Wer Zugang zu Daten hat und sie versteht, erhält somit auch die Deutungshoheit.

Die Arbeit mit Daten ist also nicht allein eine informations-technologische, sondern auch eine politische. Will ein Unternehmen daten-basiert arbeiten, so verlangt dies auch einen Change Management-Prozess, der alle Beteiligten mitnimmt.

Datenschutz

Nicht nur die fehlende Vertrautheit mit Computern, sondern auch zwei politische Systeme, die im 20. Jahrhundert auf dem heutigen deutschen Gebiet ihre Bevölkerung überwacht haben, haben einen Einfluss auf die Datenschutzbewegung gehabt. Tatsächlich ist Datenschutz auch in anderen Ländern ein Thema, allerdings in unterschiedlicher Ausprägung, obwohl die zuvor beschriebene Informatisierung des Lebens fast überall auftrat. Sicherheitsrechtliche sowie wirtschaftliche Aspekte verhinderten und verhindern noch immer, dass zum Beispiel die USA ähnliche Datenschutzgesetze hat wie Deutschland. Der Schutz des Staates und die damit verbundene Möglichkeit des Einsehens persönlicher Daten durch den Staat zum einen, aber auch das wachsende Wirtschaftssegment der Computertechnologie in den USA führten zu einem anderen Umgang mit Da- ten, der es bis heute unmöglich macht, internationale Gesetze zum Datenschutz zu vereinbaren. Noch heute wird in der deutschen Werbeszene darüber lamentiert, dass die amerikanischen Marktbegleiter deutliche Vorteile hätten, weil sie weniger strengen Datenschutzgesetzen unterliegen.

Grundlagen des Datenschutzes

Wie im Abschnitt über die Geschichte der Daten beschrieben, bedeutete die Volkszählung 83/87 eine Zäsur in der deutschen Datenschutzgesetzgebung. Das Bundesverfassungsgericht prägte den Begriff der informationellen Selbstbestimmung. Diese bedeutet, dass jeder Mensch selbst bestimmen kann, welche Informationen er wann von sich preisgeben möchte. Wenn ein Mensch nicht weiß, was wann über ihn gespeichert wird, so könnte er sein Verhalten anpassen, um mit Normen konform zu gehen (Panoptismus). Eine freie Gesellschaft zeichnet sich aber dadurch aus, dass jeder selbst bestimmt mitwirken kann.

Das Bundesdatenschutzgesetz ging seitdem von zwei Prinzipien aus:

  • Verbotsprinzip mit Erlaubnisvorbehalt: Das Erheben, Speichern und Nutzen von personenbezogenen Daten ist verboten, es sei denn, dass der Nutzer dies schriftlich erlaubt hat oder eine Rechtsgrundlage für einen bestimmten Nutzungsfall besteht.
  • Datensparsamkeit und Datenvermeidung:Es sollte vermieden werden überhaupt Daten zu speichern und wenn doch, dann so wenig wie möglich. Daten sollten gleichzeitig wenn möglich anonymisiert oder pseudonymisiert werden.

Personenbezogene Daten sind solche, die auf eine Person zurückschließen lassen, wie zum Beispiel ein Name, eine E-Mail-Adresse oder in Deutschland auch eine IP-Adresse. In Deutschland ist übrigens auch der Klarnamenszwang untersagt, sofern dies technisch möglich ist. Der Klarnamenszwang von Facebook ist also auf den ersten Blick unzulässig. Aber da die Daten von Facebook in Irland verarbeitet werden, gilt das irische Recht, nicht das deutsche. Die beiden oben genannten Prinzipien mögen dem Leser realitätsfremd vorkommen, erklären aber auch, warum manche Firmen eine große Vorsicht an den Tag legen. Durch die Datenschutzgrundverordnung wurden viele Bestandteile des Datenschutz modernisiert. Im Prinzip kann aber immer noch von dem Grundsatz der informationellen Selbstbestimmung ausgegangen werden.

Zwischen Anspruch und Wirklichkeit des Nutzerverhaltens

Auch wenn die Deutschen besonders sensibel bei dem Thema Daten sein wollen, so zeigt ihr Verhalten etwas anderes: 28 Millionen Deutsche sind aktive Nutzer einer Payback-Karte (Stand 2016). Bei jeder Vorlage der Karte werden die Daten über den Einkauf mit den persönlichen Daten des Nutzers, die er mit dem Ausfüllen des Antragsformulars freiwillig abgegeben hat, verknüpft. So entstehen sehr genaue Konsumdaten für jeden Nutzer, sei es nur über Warengruppen oder tatsächlich eine Liste der Produkte, die er gekauft hat. Zwar werden die laut Payback nicht an alle Partner weitergegeben, so dass jeder Partner nur die Daten über seine Kunden zur Verfügung gestellt bekommt, aber dennoch werden Kundengruppen spezifiziert:

PAYBACK [selektiert] auf anonymisierter Basis spezifische Kun- dengruppen, die sich durch ein ähnliches Einkaufsverhalten auszeichnen und dadurch an bestimmten Angeboten interessiert sein können (z.B. Familie mit Kleinkind, Single,…).

Individuelle Kundenprofile werden angeblich nicht erstellt. Aber jeder, der sich die verfügbaren Daten anschaut, versteht, dass hier eine kommerzielle Datenbank existiert, die mehr über jeden einzelnen weiß als einem lieb sein kann. Stellen wir uns einen Augenblick vor, dass die Daten aus Versehen gehackt werden: Wer möchte, dass auf einer Website steht, wie viel man wahrscheinlich verdient (das kann man anhand der Einkäufe relativ leicht nachvollziehen), was man so alles in den letzten Jahren gekauft hat und wann und wo? Ist zum Einlösen einer Prämie tatsächlich das Speichern all dieser Daten notwendig? Übrigens sind die Rabatte, die man mit dem Sammeln von Punkten mit einer Payback-Karte erhält, kaum vorhanden, zum Teil sind die Waren sogar teurer.

Ein weiteres Beispiel ist Facebook: Facebook sammelt nicht nur auf der Facebook-Seite Daten. Auf vielen Websites im Netz ist ein Like-Button vorhanden, und oft genug wird angezeigt, welche der Freunde diese Seite schon „geliked“ haben oder dass man der erste sein könnte, der diese „liked“. Facebook verfügt also nicht nur über die Daten, die man bei Facebook selbst angibt, sondern auch über Daten, auf welchen Seiten man sich so bewegt. Und da man sich anscheinend auch so gut wie nie bei Facebook abmeldet und meist auch auf mehreren Geräten eingeloggt ist, entsteht eine riesige Datensammlung.

Natürlich besitzt auch Google einen solchen Datenschatz. Android-Handys, Google-Suche, Seiten mit Google-AdSense-Werbung oder von der Google-Tochter DoubleClick ausgespielte Werbung, Google Mail, Google Maps, Google Voice Search, Seiten mit Google Analytics, und vieles mehr ermöglichen eine riesige Sammlung von Daten. Unter Google Ad Settings kann jeder sehen, was Google von einem weiß oder denkt zu wissen. Hier kann die personalisierte Werbung auch deaktiviert werden. Ob das Sammeln der Daten damit auch gestoppt wird, darüber wird keine Aussage getroffen.

Wer ist hier die Ware?

Bei allen diesen Beispielen gehen Benutzer einen Tausch ein: Sie bekommen einen Dienst kostenlos und geben dafür ihre Daten her. Zum Teil sind die Dienste wertlos ohne Nutzer-Daten, so dass man den Unternehmen gar keine Vorwürfe machen kann; wie könnte die Google Voice Search denn überhaupt verstehen, dass man gerade „OK Google“ gesagt hat, wenn das Android-Handy nicht die ganze Zeit zuhört? Mit den Daten wird Werbung personalisiert, so dass sie teurer verkauft werden kann, der Nutzer selbst wird also zur Ware. Aber auf den ersten Blick tut Werbung ja auch gar nicht weh, oder? Und was soll schon Schlimmes mit den eigenen Daten passieren?

Berühmt geworden sind in diesem Zusammenhang zwei Zitate des früheren Google-Chefs Eric Schmidt:

If you have something that you don’t want anyone to know, maybe you shouldn’t be doing it in the first place. (Eric Schmidt 2009)

We know where you are. We know where you’ve been. We can more or less know what you’re thinking about. (Eric Schmidt 2010)

Wir brauchen nur in die deutsche Geschichte zurück zu blicken um zu verstehen, dass diese Äußerungen angsteinflößend sind, sie wurden zum Teil auch später revidiert. Auch gegenwärtig werden Argumente dafür hervorgebracht, die Privatsphäre des Bürgers zu reduzieren, wenn dafür mehr Sicherheit angesichts drohender Terrorakte gewährleistet werden kann. Ist das gut oder ist das schlecht? Auf schwierige Fragen gibt es keine einfachen Antworten.

Aber nicht nur Internetkonzerne haben spannende Daten. CarSharing-Anbieter wie DriveNow oder Telekommunikationsanbieter wie die Telekom wissen sehr genau, wann sich jemand wo aufhält, und durch die Vorratsdatenspeicherung werden viele dieser Daten auch noch für einen längeren Zeitraum gespeichert. Nicht schlimm? Sehr wahrscheinlich möchten einige Menschen nicht, dass diese Daten veröffentlicht werden, denn vielleicht hat man dem Partner etwas anderes gesagt, wo man sich gerade aufhält. Oder man ist von der Dienstreise früher zurück gekehrt und geht nicht mehr ins Büro, obwohl noch ein paar Stunden Arbeit abzuleisten wären.

Nun mag es gar nicht so schlecht klingen, wenn durch das Wissen der möglichen Überwachung mehr Ehrlichkeit entstünde, aber es muss gar nicht mal um Ehebetrug oder Widerstand gegen eine Staatsdiktatur gehen: Die wenigsten Nutzer werden zum Beispiel via Facebook verkünden, dass sie eine Drogenberatungsstelle, eine Eheberatung oder einen Psychotherapeuten benötigen. Diese Daten werden dennoch gespeichert, denn irgendwie muss der Termin dort ja vereinbart werden, und irgendwie muss man ja auch da hin kommen. Bei Google zum Beispiel durch die Google Maps Zeitachse, die genau speichert, wann man wo gewesen ist, und durch die Suchanfragen sowie angeklickten Ergebnisse. Bei dem Kommunikationsanbieter, sofern man via Mail oder Telefon Kontakt mit einer solchen Stelle aufgenommen hat. Bei DriveNow oder ähnlichem, wenn man mit einem solchen CarSharing-Angebot gefahren ist. Durch Fotos, die man an einem bestimmten Ort gemacht hat und die Daten über den Entstehungsort enthalten. Durch das Orten des Handys. So wurden einer Psychologin zum Beispiel zunächst ihre eigenen Patienten als Freunde auf Facebook vorgeschlagen, was sich noch damit erklären ließ, dass Facebook die Telefonnummer der Psychologin hatte und anscheinend eine Verknüpfung auf dieser Ebene stattfand, denn ihre Patienten hatten wahrscheinlich auch ihre Telefonnummer gespeichert. Unheimlich wurde es aber dann, als ihre Pa- tienten auch andere Patienten von ihr als Freunde vorgeschlagen bekamen. Die Psychologin vermutet, was allerdings nicht von Facebook bestätigt wurde, dass der Aufenthalt an einem gemeinsamen Ort als Signal verwendet wurde, um eine Beziehung zwischen zwei Personen herzustellen.

Doch wie sollen die Daten überhaupt an jemanden gelangen, der damit anderes als Werbung im Sinn hat? Als die Google Streetview-Autos durch Deutschland fuhren, erstellten sie nicht nur Fotos, sondern sammelten auch gleich Daten von den WIFI-Netzwerken auf der Strecke, laut Aussage von Google ein Versehen eines Mitarbeiters. Und Google steht mit solchen Fehlern nicht allein da: Im September 2016 wurde bekannt, dass Yahoo! 500 Millionen Datensätze von Nutzern als gestohlen melden musste. LinkedIn verlor 2012 Nutzerdaten an einen Hacker, das Ausmaß wurde aber erst 2016 wirklich bekannt. AOL stellte 2006 anonymisierte Suchmaschinen-Logdateien für die Forschung bereit und stellte wenige Stunden später fest, dass das keine gute Idee war; nur kurze Zeit später konnte eine Benutzerin anhand ihrer Suchanfragen identifiziert werden. Und ganz ohne Sicherheitsvorkehrungen kann man zum Beispiel die Wunschzettel von Amazon-Nutzern automatisiert auslesen und Profile erstellen, zum Teil sogar mit Ort, so dass sehr schnell klar wird, wo Shades of Grey am häufigsten gelesen wird.

Fazit

Zusammengefasst lässt sich feststellen, dass Datenschutz in Deutschland zwar groß geschrieben wird, die Deutschen aber freiwillig alle Hüllen fallen lassen, wenn sie dafür etwas bekommen, was ihnen nützlich erscheint und der Bequemlichkeit zum Vorteil gereicht. Die Nutzung des Tor-Browsers ermöglicht zum Beispiel das anonyme Surfen im Netz, aber wer die Geschwindigkeit und die Annehmlichkeiten des Chrome-Browsers entdeckt hat, dem wird es schwer fallen, auf den langsameren Tor-Browser zu wechseln.

Die Beispiele der Datensammler und mögliche Konsequenzen der Daten-Freigiebigkeit verdeutlichen auf der anderen Seite, dass der Umgang mit eigenen und fremden Daten eine große Verantwortung bedeutet. Was auch immer an Datenerhebung möglich ist, entspricht nicht unbedingt den gesetzlichen und vor allem ethischen Maßstäben.

Nächster Abschnitt: Keine Angst vor Daten!

Eine kleine Daten-Geschichte

Vom Zählen übers Messen zum Ergebnis

Daten wurden eigentlich schon immer gesammelt, auch wenn sie nicht als solche bezeichnet wurden. Das Wort „Datum“ kommt vom lateinischen Wort dare und bedeutet in diesem Fall „gegeben“ oder das „Gegebene“. Der Singular wäre eigentlich Datum, aber da die Deutschen damit eher ein Kalenderdatum meinen, wird der Singular für Daten entweder vermieden oder eine Konstruktion verwendet wie „Datenwert“. „Gegeben“ wurde übrigens damals ein Schriftstück, der Inhalt dieses Schriftstücks wurde zu dem Gegebenen. Daher kommt zum einen heute das Datum, das über einem Brief steht („gegeben am soundsovielten in soundso“, zum anderen ist dadurch auch das Wort „Datei“ entstanden, ein Kofferwort aus „Datum“ und „Kartei“).

Doch am Anfang wurde nichts gegeben, sondern einfach nur gezählt. Ein Bauer musste jeden Abend sein Vieh zählen, und hier wurden zum Beispiele Steine, für jedes Tier einer, gesammelt und morgens und abends abgeglichen. Natürlich wurde nicht nur das Vieh gezählt, auch Menschen wurden gezählt. Die Mutter aller Volkszählungen wird schon in der Bibel erwähnt. Tatsächlich existierten schon vorher Volkszählungen, und alle hatten das gleiche Ziel: Das Volk zu schätzen, um die Steuereinnahmen berechnen zu können. Datensammlungen bekamen also bereits früh einen negativen Beigeschmack für die Betroffenen. Das erklärt aber immer noch nicht, wieso das Wort „Daten“ im heutigen Kontext genutzt wird. Laut Rosenburg wurde der Begriff „data“ 1646 das erste Mal im Englischen genutzt für gegebene Quantitäten in mathematischen Problemen. Kurz zuvor war die Statistik als Disziplin zur Erfassung und Analyse von Daten geboren worden Die Konnotation der Daten änderte sich im Laufe des 18. Jahrhunderts von dem Gegebenen, also einem Fakt, zu dem Ergebnis eines Experiments oder einer Kalkulation.

Maschinelle Auswertung von Daten

Die Volkszählung in den USA um 1890 markierte einen Wendepunkt in unserer Geschichte der Daten, da das erste Mal Lochkarten verwendet wurden. Der deutschstämmige Hermann Hollerith ermöglichte es den Volkszählern, die für die Auswertung der großen Menge an Daten benötigte Zeit radikal zu reduzieren (von Jahren zu Wochen), indem weite Teile der Abfragen automatisiert wurden. Die Idee, Lochkarten zu nutzen, wurde übrigens durch die beiden Franzosen Falcon und Jacquard inspiriert, die Webstühle mit Holzbrettchen mit Löchern und später Lochkarten ausstatteten, so dass komplexe Muster automatisch gestaltet werden konnten (es ist nicht belegt, dass daraus der Weberaufstand entstand). Aus der Firma Hollerith entstand später IBM, eine Abkürzung für Industrial Business Machines. Neben Tabelliermaschinen, die Lochkarten auswerten konnten, waren auch andere Bürogeräte wie Locher im Angebot. Zu dieser Zeit stand vor allem das Zählen im Fokus.

Der erste programmgesteuerte Rechner war die Zuse Z3, fast gleichzeitig wurde in den USA der Mark I von IBM gebaut. Die Besonderheit hier ist, dass Programme ausgeführt werden konnten, es wurde also nicht mehr nur gezählt, sondern auch berechnet. Konrad Zuse wollte statische Berechnungen automatisieren, der Mark I unterstützte Forscher beim Manhatten-Projekt, das die Grundlage für die Atombombe war. Beide Systeme basieren auf Relais-Technik, die 1946 von der Röhrentechnik abgelöst wurde (UNIVAC, der erste kommerziell verfügbare Computer). Die ersten Rechner auf Basis von Transistoren entstanden Anfang der 50er Jahre, abgelöst wurden diese von integrierten Schaltkreisen in den 60er Jahren. Dadurch wurden Rechner das erste Mal so klein und günstig, dass sie nicht nur Großunternehmen zur Verfügung standen, sondern auch in Universitäten mehr Forschern zur Verfügung standen. Zur Einordnung: Der Zuse Z3 hatte eine Taktfrequenz von ca. 5 Hz und benötigte für eine Division 5 Sekunden. Der Univac benötigte dafür nur noch 3,9 Millisekunden bei einer Taktfrequenz 2.25 MHz (Mega = 1.000, der Univac war also 450 Mal schneller als der Zuse Z3, siehe hier eine Übersicht von Rechnern und deren Geschwindigkeiten, wobei nicht nur die Hz-Zahlen, sondern auch die MIPS, Millionen Instruktionen pro Sekunde, hinzugezogen werden). IBMs erster Transistor-Rechner schaffte 600.000 mal mehr MIPS als der Univac bei einem Drittel mehr MHz. Ohne in die Details zu gehen (verschiedene Prozessorarchitekturen behandeln Instruktionen anders) ist offensichtlich, dass Programme um ein Vielfaches schneller ausgeführt werden konnten. Je günstiger die Rechner wurden, desto größer war die Wahrscheinlichkeit, dass auch Wissenschaftler Zugang zu Rechnern bekamen, die nicht nur Atombomben bauen oder Raketen zum Mond schießen wollten.

Computer für alle

In den 70er Jahren entwickelte sich eine Szene von Bastlern, die sich auf Basis von Mikroprozessoren eigene Rechner bauten, daraus ist unter anderem Apple entstanden. In den 80er Jahren wurden die ersten Heimcomputer populär, gleichzeitig zogen Computer in immer mehr Unternehmen ein. Jeder konnte nun mit einem Computer arbeiten, der um ein Vielfaches schneller war als die ersten Großrechner der 50er und 60er Jahre und gleichzeitig nur wenige 1.000 DM kostete. Die steigende Verfügbarkeit von Computern für mehr Menschen bedeutete auch, dass Software entstand für immer mehr Anwendungen. War SPSS (Statistical Package for the Social Sciences, ein populäres Programm in der Statistik) im Jahr 1968 nur wenigen Anwendern vorbehalten, die Daten und Programme in Lochkarten stanzen mussten, kann das heutige IBM SPSS auf jedem PC laufen. Noch besser, anstatt über 3.000€ für eine Lizenz auszugeben, existieren Open Source-Alternativen wie R, die sich jeder kostenlos herunterladen und verwenden kann. Die Verfügbarkeit von Rechenzeit für jeden hat somit auch zu Anwendungen für jeden verholfen.

Heute ist jedes Handy schneller als die Rechner damals, und ein Raspberry Pi für 30€ verfügt über 4.744 MIPS bei 1 GHz. Gleichzeitig kostet er nur einen Bruchteil dessen, was ein Univac kostete (ca. 1.5 Millionen Dollar, wobei ein Dollar damals ungefähr so viel wert war wie heute 8 Dollar). Und nicht nur die Rechner wurden schneller und preisgünstiger, auch die Datenspeicher. Hatten die ersten Festplatten in der Größe einer Waschmaschinentrommel gerade mal 5 MegaByte Speicher im Angebot, so finden heute auf einem Scheckkarten-großen Speicher TeraBytes an Daten Platz. Dieser Speicher kann auch viel schneller gelesen werden als zum Beispiel die Festplatten und Bänder, die im 20. Jahrhundert verwendet wurden.

Würde man all diese Entwicklungen auf einem Zeitstrahl visualisieren, so würden schnell exponentielle Verläufe deutlich werden (selbst wenn Moore’s Law nicht mehr zu gelten scheint). Dieser kleine Ausflug in die Geschichte der Rechenleistungen und ihrer Entwicklung zeigt, wie schnell sich technischer Fortschritt entwickeln kann; exponentielle Entwicklungen sind für den Menschen ansonsten nur schwer nachvollziehbar.

Von Computerhirnen und Hackern

Hatten die Menschen zu Beginn des Computer-Zeitalters noch romantische Vorstellungen, was ein Computer für sie tun könnte (siehe unten die Aufnahme von 1968, und wenn man sich die Partnerbörsen heute ansieht, dann war France Gall gar nicht so weit entfernt), wuchs das Misstrauen in die zunehmende Computerisierung in den 1970er Jahren (siehe vor allem Bergmann 2009).

Der Computer war eine Black Box für die Mehrheit der Menschen, die keinen Zugang zu einem Computer hatten und erst recht nicht wussten, was wann und wie über sie gespeichert wurde. 1983 stellte zum Beispiel die Schufa komplett auf EDV um, und auch wenn jeder Auskunft über seine bei der Schufa gespeicherten Daten bekommen kann, so bedeutet das noch lange nicht, dass man diese Daten auch ändern könnte oder überhaupt versteht, welche Konsequenz die bei der Schufa gesammelten Daten für das eigene Leben haben können. Was bedeutet denn der Score von 93% genau? Wie kommt er zustande? Wie kann ich ihn ändern? Wo vorher in Unternehmen ein Kundenberater nach eigenem Ermessen eine Entscheidung fällen konnte, wurde dies nun durch ein anonymes System bewerkstelligt, was zu einem Gefühl der Machtlosigkeit führte.

Hinzu kam, dass die neue Computerwelt nicht so sicher war, wie die Betreiber zu glauben machen versuchten. Der Chaos Computer Club schaffte es zum Beispiel, der Hamburger Sparkasse einen sechsstelligen D-Mark-Betrag über das angeblich sichere BTX-System zu entwenden. Dabei ging es den Hackern nicht darum Geld zu klauen, sondern auf die fehlende Sicherheit des Systems hinzuweisen.

Foto von Groenewold, Elke, Creative Commons Lizenz

Die Volkszählung in Deutschland 1983 beziehungsweise 1987 tat ihr Übrigens dazu, das Misstrauen der Bevölkerung in das Sammeln von Daten zu fördern. Eigentlich sollte die Volkszählung 1983 stattfinden, dies wurde aber durch massive Proteste und ein wegweisendes Urteil des Bundesverfassungsgerichts verhindert. Die Proteste waren von einer breiten Allianz von Gruppierungen unterstützt, die gerade frisch in den Bundestag gekommenen Grünen ebenso wie die Jugendorganisation der FDP. Das Bundesverfassungsgericht stellte das Recht auf informationelle Selbstbestimmung als ein Grundrecht dar, so dass bei dem Entwurf der Volkszählung stark nachgearbeitet werden musste. Und selbst die dann 1987 stattfindende Volkszählung war von Protesten und Verweigerung begleitet (siehe zum Beispiel das Graffiti an einer Häuserwand in der Hamburger Hafenstraße). Mehr dazu im Abschnitt über Datenschutz.

Von Data zu Big Data?

Heute wird nicht mehr nur von Daten gesprochen, sondern gleich von Big Data, wobei die wenigsten verstehen, was Big Data eigentlich ist. Tatsächlich ist Big Data auch nicht wirklich definiert, in der Regel versteht man darunter aber Daten, die aufgrund ihrer Menge und/oder Struktur kompliziert zu verarbeiten sind.

Um den Unterschied deutlich zu machen: Die deutsche Version von Wikipedia kann als XML-Datei heruntergeladen werden und ist entpackt knapp 20 GigaByte groß. Eine Analyse der Daten kann mehrere Minuten dauern, bei komplexen Ab- fragen auch länger. Aber die XML-Datei von Wikipedia ist kein Big Data, selbst wenn sich knapp zwei Millionen Artikel in der deutschen Wikipedia-Datei befinden. Die Daten, die zum Beispiel ein Telekommunikationsprovider jeden Tag sammelt, können eher als Big Data aufgefasst werden, insbesondere wenn es um Kommunikationsdaten geht, die in Echtzeit automatisiert analysiert werden sollen. Die Komplexität von Daten, die Menge und ihre Prozessierungsgeschwindigkeit sind Faktoren, die Big Data ausmachen können, sofern es eine allgemein gültige Definition gäbe.

Weiter gehts mit Datenschutz.

Analyse, Analytics, Statistik, Data Science – Was denn jetzt?

Zunächst einmal: Nicht alle dieser Begriffe sind eindeutig definiert. Klar definiert ist das Gebiet der Statistik, das Merriam-Webster als

a branch of mathematics dealing with the collection, analysis, interpretation, and presentation of masses of numerical data

bezeichnet. Borz formuliert in seinem Standardwerk:

Statistik ist ein wichtiger Bestandteil empirisch-wissenschaftlichen Arbeitens, der sich mit der Zusammenfassung und Darstellung von Daten befasst. Darüber hinaus stellt die Statistik den empirischen Wissenschaftlern Verfahren zur Verfügung, mit denen objektive Entscheidungen über die Brauchbarkeit von wissenschaftlichen Hypothesen getroffen werden können.

Analysis (also Analyse im Deutschen) wird im Merriam-Webster als

a detailed examination of anything complex in order to understand its nature or to determine its essential features; a thorough study, doing a careful analysis of the problem

definiert, wobei dann Analytics

the method of logical analysis

ist. Manche interpretieren daraus, dass sich Analysis mit der Vergangenheit beschäftigt und Analytics mit dem “Warum?” und der Zukunft, aber dies ist keine allgemein abgesicherte Sicht. Eine andere Sicht ist die, dass sich Analytics keiner Null-Hypothesen bedient und stattdessen Machine Learning verwendet, um etwas Sinnvolles aus Daten zu gewinnen. Auch diese Meinung ist nicht abgesichert. Man könnte Analytics auch als Mini-Statistik verstehen, in der nur Teilbereiche angewandt werden, die in der Geschäftswelt am meisten benötigt werden. Schließlich kann man Statistik studieren, und nicht jeder kann sich als Statistiker bezeichnen. Der Begriff Analytics hingegen ist weder definiert noch geschützt. Jeder kann sich als Analytics-Experte bezeichnen.

Webanalyse / Web Analytics wird von der DAA wie folgt definiert (und wir gehen davon aus, dass die DAA als Autorität das Recht hat, das Gebiet der Webanalyse zu definieren):

Web Analytics is the measurement, collection, analysis and reporting of Internet data for the purposes of understanding and optimizing Web usage.

Wir sehen hier eine Ähnlichkeit mit der Definition von Statistik: Collection, Analysis, reporting/presentation. Der Unterschied hier ist, dass sich die Webanalyse auf Internet-Daten beschränkt, und wie wir später sehen werden ist die Web Analyse zum Teil noch unerklärlich weit entfernt von den Methoden der Statistik. Dies könnte daran liegen, dass Web Analytics ein noch relatives junges Feld ist. Schließlich musste erst einmal das World Wide Web geboren werden, um überhaupt etwas zu analysieren zu haben. Dabei waren die Anfangstage vor allem durch das Auswerten von Logdateien geprägt, was in der Regel vom Server-Administrator vorgenommen wurde. Von Datenanalysten war hier noch keine Spur. Erst durch die zunehmende Technologisierung des Marketings sind die Anforderungen an Analysten gestiegen, denn je mehr Geschäfte über das Netz abgewickelt werden, desto belastbarer müssen die Annahmen sein, die erstellt werden.

Die Web-Analyse sollte aber nicht als zukünftige Teilmenge der Statistik begriffen werden, denn im Web ist zusätzliches technisches Wissen notwendig. Online Marketing ist mit den Jahren zunehmend komplexer geworden, und nur wer versteht, wie etwas gemessen wird, kann korrekte Aussagen treffen. Gleichzeitig fehlt manchem Gelegenheits-Web-Analysten ein fundiertes statistisches Wissen, zum Beispiel um die Daten in einem Web Analyse-System richtig zu interpretieren oder um saubere Experimente aufzusetzen. Genau diese Lücke wird in diesem Kurs geschlossen, denn neben den statistischen Grundlagen wird auch das technische Wissen vermittelt. Dies ist umso notwendiger, da mehr und mehr Offline-Daten in die Webanalyse-Systeme importiert werden können oder Webanalyse-Daten in andere Systeme integriert und dort analysiert werden.

Der letzte zu klärende Begriff ist Data Science. Auch hier existiert keine allgemein akzeptierte Definition, aber man könnte hierunter die Überschneidung beziehungsweise den interdisziplinären Einsatz von Data Mining, Datenanalyse und Machine Learning verstehen. Provost und Fawcett beschreiben Data Science wie folgt:

Data science involves principles, processes, and techniques for understanding phenomena via the (automated) analysis of data.

Pierson definiert:

Data Science is the computational science of extracting meaningful insights from raw data and then effectively communicating those insights to generate value.

Provost und Fawcett die Begriffe „Data Science“ und „Data Mining“ fast austauschbar, wobei Data Mining in ihrer Definition nicht erwähnt wird. Gleichzeitig verweisen sie darauf, wie jung dieses Feld noch ist und die heutigen Data Scientists in mehreren Gebieten bewandt sein müssen:

The particular concerns of data science are fairly new and general principles are just beginning to emerge. The state of data science may be likened to that of chemistry in the mid-19th century, when theo- ries and general principles were being formulated and the field was largely experimental. Every good chemist had to be a competent lab technician. Similarly, it is hard to imagine a working data scientist who is not proficient with certain sorts of software tools.

Um Daten automatisiert auswerten zu können, wird ein Statistik-Grundwissen vorausgesetzt. Eine Schnittmenge zwischen dem klar definierten Bereich der Statistik und dem noch schwammigen Bereich der Data Science ist also erkennbar. Da Web Analyse und Statistik auch Überschneidungen haben (sollten), kann Data Science im Web Analyse-Bereich somit als die automatisierte Analyse zur Identifikation und dem Verständnis von Internetdaten definiert werden. Im Hinblick auf Piersons Definition wird aber auch gleich eine weitere Schwäche der Web Analysten deutlich: Sie verwenden häufig aggregierte Daten, keine Rohdaten. Tatsächlich sind viele Web Analysten auch keine Programmierer, die Algorithmen zur Auswertung von Daten konzipieren könnten. Und wie oben festgestellt, fehlen ihnen auch häufig die Statistik-Grundlagen.

Das Ziel dieses Kurses ist, die Brücke zwischen den einzelnen Disziplinen zu schlagen und sowohl Grundkenntnisse in Statistik als auch technische Kompetenz sowie Data Science-Ansätze zu vermitteln. Das Tolle an Web Analytics-Daten ist, dass jeder schon mal auf einer Webseite war und somit auch nachvollziehen kann, was für Daten gesammelt werden können.

Nächster Abschnitt: Das Business Problem verstehen