Analyse, Analytics, Statistik, Data Science – Was denn jetzt?

Zunächst einmal: Nicht alle dieser Begriffe sind eindeutig definiert. Klar definiert ist das Gebiet der Statistik, das Merriam-Webster als

a branch of mathematics dealing with the collection, analysis, interpretation, and presentation of masses of numerical data

bezeichnet. Borz formuliert in seinem Standardwerk:

Statistik ist ein wichtiger Bestandteil empirisch-wissenschaftlichen Arbeitens, der sich mit der Zusammenfassung und Darstellung von Daten befasst. Darüber hinaus stellt die Statistik den empirischen Wissenschaftlern Verfahren zur Verfügung, mit denen objektive Entscheidungen über die Brauchbarkeit von wissenschaftlichen Hypothesen getroffen werden können.

Analysis (also Analyse im Deutschen) wird im Merriam-Webster als

a detailed examination of anything complex in order to understand its nature or to determine its essential features; a thorough study, doing a careful analysis of the problem

definiert, wobei dann Analytics

the method of logical analysis

ist. Manche interpretieren daraus, dass sich Analysis mit der Vergangenheit beschäftigt und Analytics mit dem “Warum?” und der Zukunft, aber dies ist keine allgemein abgesicherte Sicht. Eine andere Sicht ist die, dass sich Analytics keiner Null-Hypothesen bedient und stattdessen Machine Learning verwendet, um etwas Sinnvolles aus Daten zu gewinnen. Auch diese Meinung ist nicht abgesichert. Man könnte Analytics auch als Mini-Statistik verstehen, in der nur Teilbereiche angewandt werden, die in der Geschäftswelt am meisten benötigt werden. Schließlich kann man Statistik studieren, und nicht jeder kann sich als Statistiker bezeichnen. Der Begriff Analytics hingegen ist weder definiert noch geschützt. Jeder kann sich als Analytics-Experte bezeichnen.

Webanalyse / Web Analytics wird von der DAA wie folgt definiert (und wir gehen davon aus, dass die DAA als Autorität das Recht hat, das Gebiet der Webanalyse zu definieren):

Web Analytics is the measurement, collection, analysis and reporting of Internet data for the purposes of understanding and optimizing Web usage.

Wir sehen hier eine Ähnlichkeit mit der Definition von Statistik: Collection, Analysis, reporting/presentation. Der Unterschied hier ist, dass sich die Webanalyse auf Internet-Daten beschränkt, und wie wir später sehen werden ist die Web Analyse zum Teil noch unerklärlich weit entfernt von den Methoden der Statistik. Dies könnte daran liegen, dass Web Analytics ein noch relatives junges Feld ist. Schließlich musste erst einmal das World Wide Web geboren werden, um überhaupt etwas zu analysieren zu haben. Dabei waren die Anfangstage vor allem durch das Auswerten von Logdateien geprägt, was in der Regel vom Server-Administrator vorgenommen wurde. Von Datenanalysten war hier noch keine Spur. Erst durch die zunehmende Technologisierung des Marketings sind die Anforderungen an Analysten gestiegen, denn je mehr Geschäfte über das Netz abgewickelt werden, desto belastbarer müssen die Annahmen sein, die erstellt werden.

Die Web-Analyse sollte aber nicht als zukünftige Teilmenge der Statistik begriffen werden, denn im Web ist zusätzliches technisches Wissen notwendig. Online Marketing ist mit den Jahren zunehmend komplexer geworden, und nur wer versteht, wie etwas gemessen wird, kann korrekte Aussagen treffen. Gleichzeitig fehlt manchem Gelegenheits-Web-Analysten ein fundiertes statistisches Wissen, zum Beispiel um die Daten in einem Web Analyse-System richtig zu interpretieren oder um saubere Experimente aufzusetzen. Genau diese Lücke wird in diesem Kurs geschlossen, denn neben den statistischen Grundlagen wird auch das technische Wissen vermittelt. Dies ist umso notwendiger, da mehr und mehr Offline-Daten in die Webanalyse-Systeme importiert werden können oder Webanalyse-Daten in andere Systeme integriert und dort analysiert werden.

Der letzte zu klärende Begriff ist Data Science. Auch hier existiert keine allgemein akzeptierte Definition, aber man könnte hierunter die Überschneidung beziehungsweise den interdisziplinären Einsatz von Data Mining, Datenanalyse und Machine Learning verstehen. Provost und Fawcett beschreiben Data Science wie folgt:

Data science involves principles, processes, and techniques for understanding phenomena via the (automated) analysis of data.

Pierson definiert:

Data Science is the computational science of extracting meaningful insights from raw data and then effectively communicating those insights to generate value.

Provost und Fawcett die Begriffe „Data Science“ und „Data Mining“ fast austauschbar, wobei Data Mining in ihrer Definition nicht erwähnt wird. Gleichzeitig verweisen sie darauf, wie jung dieses Feld noch ist und die heutigen Data Scientists in mehreren Gebieten bewandt sein müssen:

The particular concerns of data science are fairly new and general principles are just beginning to emerge. The state of data science may be likened to that of chemistry in the mid-19th century, when theo- ries and general principles were being formulated and the field was largely experimental. Every good chemist had to be a competent lab technician. Similarly, it is hard to imagine a working data scientist who is not proficient with certain sorts of software tools.

Um Daten automatisiert auswerten zu können, wird ein Statistik-Grundwissen vorausgesetzt. Eine Schnittmenge zwischen dem klar definierten Bereich der Statistik und dem noch schwammigen Bereich der Data Science ist also erkennbar. Da Web Analyse und Statistik auch Überschneidungen haben (sollten), kann Data Science im Web Analyse-Bereich somit als die automatisierte Analyse zur Identifikation und dem Verständnis von Internetdaten definiert werden. Im Hinblick auf Piersons Definition wird aber auch gleich eine weitere Schwäche der Web Analysten deutlich: Sie verwenden häufig aggregierte Daten, keine Rohdaten. Tatsächlich sind viele Web Analysten auch keine Programmierer, die Algorithmen zur Auswertung von Daten konzipieren könnten. Und wie oben festgestellt, fehlen ihnen auch häufig die Statistik-Grundlagen.

Das Ziel dieses Kurses ist, die Brücke zwischen den einzelnen Disziplinen zu schlagen und sowohl Grundkenntnisse in Statistik als auch technische Kompetenz sowie Data Science-Ansätze zu vermitteln. Das Tolle an Web Analytics-Daten ist, dass jeder schon mal auf einer Webseite war und somit auch nachvollziehen kann, was für Daten gesammelt werden können.

Nächster Abschnitt: Das Business Problem verstehen