Über diesen Kurs

Das Ziel dieses Kurses ist nicht, die Bedienung von Tools wie Google Analytics, Adobe Analytics, der Google Webmaster Console oder den Umgang mit Machine Learning-Algorithmen zu vermitteln. Vielmehr geht es darum, die Kompetenz zu vermitteln, wie an analytische Probleme herangegangen wird. Die Werkzeuge sind nur ein Mittel zum Zweck. Nicht umsonst heißt es:

A fool with a tool is still a fool.

Die Bedienung eines Tools kann man schnell ergooglen, den Denkansatz aber nicht. Und der ist viel wichtiger als genau zu wissen, welche Dimension mit welcher Metrik in einem Tool miteinander verbunden werden kann oder wie die Formel für einen bestimmten Algorithmus genau aussieht. Denn die Tools entwickeln sich schnell weiter, so dass jedes Wissen über das Tool veraltet ist, bevor der Kurs abgeschlossen wird. Der Denkansatz aber wird sehr wahrscheinlich auf absehbare Zeit gleich bleiben. Wir werden uns auch nicht nur Webanalyse-Daten ansehen, denn viele Fragen lassen sich nur durch die Verknüpfung verschiedener Daten beantworten.

Für die Herangehensweise an analytische Probleme werden in diesem Kurs Statistik-Grundlagen vermittelt. Dabei wird darauf geachtet, dass nicht stumpf Statistik-Wissen mit Formeln eingetrichtert wird, sondern vor allem die Wissensbereiche, die elementar für die Analyse von Daten im Webanalyse und drumherum sind. Die Webanalyse wird noch viel zu häufig ohne diese Grundlagen durchgeführt, doch spätestens wenn sich eine Datenanalyse nicht nur auf reine Webanalyse-Daten bezieht, ist Statistikwissen notwendig. Mit diesen Grundlagen gewappnet schnuppern wir in die ersten Bereiche des derzeit gehypten Bereichs Data Science hinein.

Wir werden uns vorrangig mit Google Tools beschäftigen, nicht weil diese unbedingt besser sind, sondern weil viele davon kostenlos verfügbar sind und deswegen auch einfach ausprobiert werden können. Die in dem Kurs vermittelten Kenntnisse sollten ausreichen, um die Google Analytics Individual Qualification zu bestehen und für die Zertifizierung der Digital Analytics Association vorbereitet zu sein.

Nächster Abschnitt: Einführung

Wie groß muss ein Sample sein?

Diese immer wiederkehrende Frage ist nicht einfach zu beantworten. Die Antwort, dass ein Sample nur aus 30 Befragten oder Datenpunkten bestehen muss, ist falsch. Eine wunderbare Erklärung findet sich in diesem Paper von Prof. Dr. von der Lippe, allerdings ist es zu mathematisch für diejenigen, die einfach eine schnelle Antwort benötigen. Auch Online-Rechner und Tabellen zur Berechnung von Sample-Größen sind mit Vorsicht zu genießen, denn sie setzen voraus, dass der Benutzer weiß, mit was für einer Art Test er zu tun hat.

Wie in dem Abschnitt über Surveys bereits besprochen, sind außerdem Effekte zu berücksichtigen, die jedes Umfrage-Sample beeinflussen, wie zum Beispiel die Non Respondents.

Analyse, Analytics, Statistik, Data Science – Was denn jetzt?

Zunächst einmal: Nicht alle dieser Begriffe sind eindeutig definiert. Klar definiert ist das Gebiet der Statistik, das Merriam-Webster als

a branch of mathematics dealing with the collection, analysis, interpretation, and presentation of masses of numerical data

bezeichnet. Borz formuliert in seinem Standardwerk:

Statistik ist ein wichtiger Bestandteil empirisch-wissenschaftlichen Arbeitens, der sich mit der Zusammenfassung und Darstellung von Daten befasst. Darüber hinaus stellt die Statistik den empirischen Wissenschaftlern Verfahren zur Verfügung, mit denen objektive Entscheidungen über die Brauchbarkeit von wissenschaftlichen Hypothesen getroffen werden können.

Analysis (also Analyse im Deutschen) wird im Merriam-Webster als

a detailed examination of anything complex in order to understand its nature or to determine its essential features; a thorough study, doing a careful analysis of the problem

definiert, wobei dann Analytics

the method of logical analysis

ist. Manche interpretieren daraus, dass sich Analysis mit der Vergangenheit beschäftigt und Analytics mit dem “Warum?” und der Zukunft, aber dies ist keine allgemein abgesicherte Sicht. Eine andere Sicht ist die, dass sich Analytics keiner Null-Hypothesen bedient und stattdessen Machine Learning verwendet, um etwas Sinnvolles aus Daten zu gewinnen. Auch diese Meinung ist nicht abgesichert. Man könnte Analytics auch als Mini-Statistik verstehen, in der nur Teilbereiche angewandt werden, die in der Geschäftswelt am meisten benötigt werden. Schließlich kann man Statistik studieren, und nicht jeder kann sich als Statistiker bezeichnen. Der Begriff Analytics hingegen ist weder definiert noch geschützt. Jeder kann sich als Analytics-Experte bezeichnen.

Webanalyse / Web Analytics wird von der DAA wie folgt definiert (und wir gehen davon aus, dass die DAA als Autorität das Recht hat, das Gebiet der Webanalyse zu definieren):

Web Analytics is the measurement, collection, analysis and reporting of Internet data for the purposes of understanding and optimizing Web usage.

Wir sehen hier eine Ähnlichkeit mit der Definition von Statistik: Collection, Analysis, reporting/presentation. Der Unterschied hier ist, dass sich die Webanalyse auf Internet-Daten beschränkt, und wie wir später sehen werden ist die Web Analyse zum Teil noch unerklärlich weit entfernt von den Methoden der Statistik. Dies könnte daran liegen, dass Web Analytics ein noch relatives junges Feld ist. Schließlich musste erst einmal das World Wide Web geboren werden, um überhaupt etwas zu analysieren zu haben. Dabei waren die Anfangstage vor allem durch das Auswerten von Logdateien geprägt, was in der Regel vom Server-Administrator vorgenommen wurde. Von Datenanalysten war hier noch keine Spur. Erst durch die zunehmende Technologisierung des Marketings sind die Anforderungen an Analysten gestiegen, denn je mehr Geschäfte über das Netz abgewickelt werden, desto belastbarer müssen die Annahmen sein, die erstellt werden.

Die Web-Analyse sollte aber nicht als zukünftige Teilmenge der Statistik begriffen werden, denn im Web ist zusätzliches technisches Wissen notwendig. Online Marketing ist mit den Jahren zunehmend komplexer geworden, und nur wer versteht, wie etwas gemessen wird, kann korrekte Aussagen treffen. Gleichzeitig fehlt manchem Gelegenheits-Web-Analysten ein fundiertes statistisches Wissen, zum Beispiel um die Daten in einem Web Analyse-System richtig zu interpretieren oder um saubere Experimente aufzusetzen. Genau diese Lücke wird in diesem Kurs geschlossen, denn neben den statistischen Grundlagen wird auch das technische Wissen vermittelt. Dies ist umso notwendiger, da mehr und mehr Offline-Daten in die Webanalyse-Systeme importiert werden können oder Webanalyse-Daten in andere Systeme integriert und dort analysiert werden.

Der letzte zu klärende Begriff ist Data Science. Auch hier existiert keine allgemein akzeptierte Definition, aber man könnte hierunter die Überschneidung beziehungsweise den interdisziplinären Einsatz von Data Mining, Datenanalyse und Machine Learning verstehen. Provost und Fawcett beschreiben Data Science wie folgt:

Data science involves principles, processes, and techniques for understanding phenomena via the (automated) analysis of data.

Pierson definiert:

Data Science is the computational science of extracting meaningful insights from raw data and then effectively communicating those insights to generate value.

Provost und Fawcett die Begriffe „Data Science“ und „Data Mining“ fast austauschbar, wobei Data Mining in ihrer Definition nicht erwähnt wird. Gleichzeitig verweisen sie darauf, wie jung dieses Feld noch ist und die heutigen Data Scientists in mehreren Gebieten bewandt sein müssen:

The particular concerns of data science are fairly new and general principles are just beginning to emerge. The state of data science may be likened to that of chemistry in the mid-19th century, when theo- ries and general principles were being formulated and the field was largely experimental. Every good chemist had to be a competent lab technician. Similarly, it is hard to imagine a working data scientist who is not proficient with certain sorts of software tools.

Um Daten automatisiert auswerten zu können, wird ein Statistik-Grundwissen vorausgesetzt. Eine Schnittmenge zwischen dem klar definierten Bereich der Statistik und dem noch schwammigen Bereich der Data Science ist also erkennbar. Da Web Analyse und Statistik auch Überschneidungen haben (sollten), kann Data Science im Web Analyse-Bereich somit als die automatisierte Analyse zur Identifikation und dem Verständnis von Internetdaten definiert werden. Im Hinblick auf Piersons Definition wird aber auch gleich eine weitere Schwäche der Web Analysten deutlich: Sie verwenden häufig aggregierte Daten, keine Rohdaten. Tatsächlich sind viele Web Analysten auch keine Programmierer, die Algorithmen zur Auswertung von Daten konzipieren könnten. Und wie oben festgestellt, fehlen ihnen auch häufig die Statistik-Grundlagen.

Das Ziel dieses Kurses ist, die Brücke zwischen den einzelnen Disziplinen zu schlagen und sowohl Grundkenntnisse in Statistik als auch technische Kompetenz sowie Data Science-Ansätze zu vermitteln. Das Tolle an Web Analytics-Daten ist, dass jeder schon mal auf einer Webseite war und somit auch nachvollziehen kann, was für Daten gesammelt werden können.

Nächster Abschnitt: Das Business Problem verstehen

Daten-Analyse mit R

Nicht alle Fragestellungen können mit den Bordmitteln von Google Analytics, Adobe Analytics und anderen Lösungen gelöst werden. In solchen Fällen werden die Rohdaten aus den jeweiligen Systemen geladen und dann weiter verarbeitet. Ein anderer Grund für die Abfrage von Daten über Application Programming Interfaces (APIs) anstatt von graphischen Benutzerschnittstellen (GUIs) ist die Automatisierbarkeit der Erstellung von Reports. Diese beiden Use Cases werden am Beispiel von R gezeigt.

R ist eine Umgebung zur statistischen Datenverarbeitung und sowohl eine Sprache als auch die Umgebung selbst. Für die Nerds unter uns ist die Sprache R der Nachfolger von S. R kann kostenlos von der Webseite des R-Projekts heruntergeladen werden. Zusätzlich kann RStudio installiert werden, eine etwas bequemere Entwicklungsumgebung, die vor allem Studenten einfacher finden 🙂 Wichtig: Es muss zunächst R installiert werden, dann RStudio.

R oder Python?

Warum R und nicht Python? Es ist kein “Entweder-oder”, denn auch wenn die Python-Jünger sagen, dass Python alles könne, so ist Python zunächst einmal eine allgemeine Programmiersprache, keine Sprache, die sich auf Statistik fokussiert. Natürlich existieren viele Erweiterungen für Python, aber genau das ist der Punkt: Es sind Erweiterungen und keine grundsätzlichen Bestandteile wie bei R. Demgegenüber steht R: R hat so gut wie alles in der Standardinstallation, was man für die einfache Arbeit in der Statistik benötigt, es ist halt genau dafür ausgelegt. Aber auch R kann erweitert werden. Und auch für R existieren viele Libraries, die Funktionen nachrüsten, die Python eventuell schon mit Bordmitteln beherrscht. Libraries sind sozusagen Kollektionen von Routinen, die die Funktionen einer Programmiersprache erweitern. Mit Python und R kann man zum Beispiel mit Bordmitteln keine Webseite crawlen, das geht nur mit den zusätzlichen Libraries. In R werden Libraries auch packages oder Pakete genannt.

Manches kann Python mit seinen Erweiterungen einfach besser, zum Beispiel ist BeautifulSoup momentan noch ein viel besserer Web Scraper als Rvest es ist. Das Gute ist, dass sich beide Sprachen in RStudio wunderbar kombinieren lassen. Dazu später mehr. Ein großer Vorteil ist, dass R von Statistikern für Statistiker entwickelt wurde, also genau deren Bedürfnisse im Blick hatten. Manche bösen Zungen behaupten allerdings auch, dass dies der große Nachteil von R ist. Wiederum andere sagen, dass R süchtig macht und ungesund ist:

Using R is a bit akin to smoking. The beginning is difficult, one may get headaches and even gag the first few times. But in the long run,it becomes pleasurable and even addictive. Yet, deep down, for those willing to be honest, there is something not fully healthy in it.” (Francois Pinard)

Natürlich stimmt das nicht 🙂 Unternehmen wir also die ersten Schritte mit R und RStudio.

 

Standardabweichung

Oft interessiert nicht nur der Mittelwert, sondern auch die Streuung um diesen Mittelwert, also wie weit die Werte von dem Mittelwert entfernt sind. Je breiter die Streuung, desto weniger aussagekräftig ist das arithmetische Mittel. Die Streuung wird gemessen mit einer Art durchschnittlichen Abweichung vom Mittelwert. Wir nehmen also unser arithmetisches Mittel und berechnen dann das arithmetische Mittel der Abweichungen. Doch wie funktioniert das genau? Man könnte theoretisch alle Abweichungen summieren und dann durch die Anzahl der Abweichungen dividieren. Allerdings würde das in der Regel nicht funktionieren, weil manche Abweichungen oberhalb und andere Abweichungen unterhalb des Mittelwerts liegen, und Letztere hätten einen negativen Wert.

Schauen wir uns das am Beispiel der Altersverteilung an einer Universität an:

Normal Distribution AgesDer Mittelwert liegt bei 23, ebenso wie der Median. Wir haben also annähernd eine Normalverteilung (an dieser Uni gibt es keine Langzeitstudierende, dafür aber ein paar Überflieger, die schon mit 15 beginnen zu studieren). Jemand, der 20 ist, hat eine Abweichung von -3, jemand mit 21 Jahren eine Abweichung von -2 usw. Wir haben also neben den positiven Abweichungen auch negative Abweichungen. Die Summe der Abweichungen wäre auf jeden Fall keine Summe der positiven Zahlen, sondern wäre minimiert durch die Abweichungen, die im negativen Bereich sind.

Dieses Problem wird mit einem kleinen Trick umgangen. So werden einfach erstmal alle Abweichungen quadriert, so dass negative Vorzeichen entfallen, und dann werden sie durch die Anzahl der Werte geteilt. Aus dem ersten Wert -3 wird also 9 usw. Natürlich geht dann die ursprüngliche Maßeinheit (Länge, Gewicht, Minuten) verloren, aber zumindest haben wir einen neuen Wert, die Varianz. Die Varianz ist die quadrierte Abweichung. Ziehen wir nun die Wurzel aus der Varianz, so sind wir wieder bei der ursprünglichen Maßeinheit und haben die Standardabweichung. Das klingt leicht seltsam (“Die Standardabweichung ist die Wurzel aus der Summe der quadrierten Abweichungen der Elemente von dem arithmetischen Mittel geteilt durch die Anzahl der Elemente”), aber es geht erst mal nur darum, das negative Vorzeichen loszuwerden. Die Standwardabweichung in unserem Beispiel liegt bei 2.

Aber warum ist eine Standardabweichung nun interessant? Je höher die Standardabweichung ist, desto breiter ist die Streuung, desto mehr Werte sind weiter von dem Mittelwert entfernt. Mit nur zwei Zahlen, dem Mittelwert und der Standardabweichung weiß ich nun schon ungefähr, wie breit die Glocke in einer Normalverteilung ist. Aber wir wissen noch mehr. Denn rund 68% aller Werte liegen im Bereich von plus/minus einer Standardabweichung, rund 95% aller Werte liegen im Bereich von plus/minus zwei Standardabweichungen (um genau zu sein liegen sie innerhalb von plus/minus 1.96 Standardabweichungen).

Wichtig: Die Standardabweichung ist weniger aussagekräftig, wenn wir keine Normalverteilung haben. Schauen wir uns mal die Verteilung für einen Datenanalyse-Kurs an:

Der Mean liegt bei 23.95, der Median bei 23, die Standardabweichung bei 4,047. In diesem Fall wäre Mean minus Standardabweichung bei unter 20, allerdings ist der Mittelwert und somit auch die Standardabweichung verzerrt durch die Ausreißer rechts.

Ein Ansatz in einem solchen Fall ist die Verwendung der Median Absolute Deviation, die bei 2,9652 liegt. Wir hätten damit 15 der 19 Teilnehmer erfasst und würden alle über 27 als Ausreißer ansehen. Allerdings ist die Median Absolute Deviation auch nicht unkritisch zu sehen.

Wichtig zu merken ist, dass die Standardabweichung bei einer Normalverteilung elementar ist, um die Breite der Streuung zu identifizieren, und dass 95% aller Elemente innerhalb von knapp 2 Standardabweichungen liegen.