Datengetriebene Personas mit Assoziationsregeln

Über Personas habe ich mich ja schon an anderer Stelle ausgelassen, in diesem Artikel geht es um die datengetriebene Generierung von Personas. Ich halte mich an die Definition des Persona-Erfinders Cooper und sehe eine Persona als Prototyp für eine Gruppe von Nutzern. Dies kann auch fürs Marketing interessant sein, denn schließlich lässt dich damit eine bedürfnis- und erfahrungsorientierte Kommunikation zum Beispiel auf einer Webseite erstellen. Personas sind keine Zielgruppen, aber dazu an anderer Stelle mehr. “Datengetriebene Personas mit Assoziationsregeln” weiterlesen

Über diesen Kurs

Das Ziel dieses Kurses ist nicht, die Bedienung von Tools wie Google Analytics, Adobe Analytics, der Google Webmaster Console oder den Umgang mit Machine Learning-Algorithmen zu vermitteln. Vielmehr geht es darum, die Kompetenz zu vermitteln, wie an analytische Probleme herangegangen wird. Die Werkzeuge sind nur ein Mittel zum Zweck. Nicht umsonst heißt es:

A fool with a tool is still a fool.

Die Bedienung eines Tools kann man schnell ergooglen, den Denkansatz aber nicht. Und der ist viel wichtiger als genau zu wissen, welche Dimension mit welcher Metrik in einem Tool miteinander verbunden werden kann oder wie die Formel für einen bestimmten Algorithmus genau aussieht. Denn die Tools entwickeln sich schnell weiter, so dass jedes Wissen über das Tool veraltet ist, bevor der Kurs abgeschlossen wird. Der Denkansatz aber wird sehr wahrscheinlich auf absehbare Zeit gleich bleiben. Wir werden uns auch nicht nur Webanalyse-Daten ansehen, denn viele Fragen lassen sich nur durch die Verknüpfung verschiedener Daten beantworten.

Für die Herangehensweise an analytische Probleme werden in diesem Kurs Statistik-Grundlagen vermittelt. Dabei wird darauf geachtet, dass nicht stumpf Statistik-Wissen mit Formeln eingetrichtert wird, sondern vor allem die Wissensbereiche, die elementar für die Analyse von Daten im Webanalyse und drumherum sind. Die Webanalyse wird noch viel zu häufig ohne diese Grundlagen durchgeführt, doch spätestens wenn sich eine Datenanalyse nicht nur auf reine Webanalyse-Daten bezieht, ist Statistikwissen notwendig. Mit diesen Grundlagen gewappnet schnuppern wir in die ersten Bereiche des derzeit gehypten Bereichs Data Science hinein.

Wir werden uns vorrangig mit Google Tools beschäftigen, nicht weil diese unbedingt besser sind, sondern weil viele davon kostenlos verfügbar sind und deswegen auch einfach ausprobiert werden können. Die in dem Kurs vermittelten Kenntnisse sollten ausreichen, um die Google Analytics Individual Qualification zu bestehen und für die Zertifizierung der Digital Analytics Association vorbereitet zu sein.

Nächster Abschnitt: Einführung

Analyse, Analytics, Statistik, Data Science – Was denn jetzt?

Zunächst einmal: Nicht alle dieser Begriffe sind eindeutig definiert. Klar definiert ist das Gebiet der Statistik, das Merriam-Webster als

a branch of mathematics dealing with the collection, analysis, interpretation, and presentation of masses of numerical data

bezeichnet. Borz formuliert in seinem Standardwerk:

Statistik ist ein wichtiger Bestandteil empirisch-wissenschaftlichen Arbeitens, der sich mit der Zusammenfassung und Darstellung von Daten befasst. Darüber hinaus stellt die Statistik den empirischen Wissenschaftlern Verfahren zur Verfügung, mit denen objektive Entscheidungen über die Brauchbarkeit von wissenschaftlichen Hypothesen getroffen werden können.

Analysis (also Analyse im Deutschen) wird im Merriam-Webster als

a detailed examination of anything complex in order to understand its nature or to determine its essential features; a thorough study, doing a careful analysis of the problem

definiert, wobei dann Analytics

the method of logical analysis

ist. Manche interpretieren daraus, dass sich Analysis mit der Vergangenheit beschäftigt und Analytics mit dem “Warum?” und der Zukunft, aber dies ist keine allgemein abgesicherte Sicht. Eine andere Sicht ist die, dass sich Analytics keiner Null-Hypothesen bedient und stattdessen Machine Learning verwendet, um etwas Sinnvolles aus Daten zu gewinnen. Auch diese Meinung ist nicht abgesichert. Man könnte Analytics auch als Mini-Statistik verstehen, in der nur Teilbereiche angewandt werden, die in der Geschäftswelt am meisten benötigt werden. Schließlich kann man Statistik studieren, und nicht jeder kann sich als Statistiker bezeichnen. Der Begriff Analytics hingegen ist weder definiert noch geschützt. Jeder kann sich als Analytics-Experte bezeichnen.

Webanalyse / Web Analytics wird von der DAA wie folgt definiert (und wir gehen davon aus, dass die DAA als Autorität das Recht hat, das Gebiet der Webanalyse zu definieren):

Web Analytics is the measurement, collection, analysis and reporting of Internet data for the purposes of understanding and optimizing Web usage.

Wir sehen hier eine Ähnlichkeit mit der Definition von Statistik: Collection, Analysis, reporting/presentation. Der Unterschied hier ist, dass sich die Webanalyse auf Internet-Daten beschränkt, und wie wir später sehen werden ist die Web Analyse zum Teil noch unerklärlich weit entfernt von den Methoden der Statistik. Dies könnte daran liegen, dass Web Analytics ein noch relatives junges Feld ist. Schließlich musste erst einmal das World Wide Web geboren werden, um überhaupt etwas zu analysieren zu haben. Dabei waren die Anfangstage vor allem durch das Auswerten von Logdateien geprägt, was in der Regel vom Server-Administrator vorgenommen wurde. Von Datenanalysten war hier noch keine Spur. Erst durch die zunehmende Technologisierung des Marketings sind die Anforderungen an Analysten gestiegen, denn je mehr Geschäfte über das Netz abgewickelt werden, desto belastbarer müssen die Annahmen sein, die erstellt werden.

Die Web-Analyse sollte aber nicht als zukünftige Teilmenge der Statistik begriffen werden, denn im Web ist zusätzliches technisches Wissen notwendig. Online Marketing ist mit den Jahren zunehmend komplexer geworden, und nur wer versteht, wie etwas gemessen wird, kann korrekte Aussagen treffen. Gleichzeitig fehlt manchem Gelegenheits-Web-Analysten ein fundiertes statistisches Wissen, zum Beispiel um die Daten in einem Web Analyse-System richtig zu interpretieren oder um saubere Experimente aufzusetzen. Genau diese Lücke wird in diesem Kurs geschlossen, denn neben den statistischen Grundlagen wird auch das technische Wissen vermittelt. Dies ist umso notwendiger, da mehr und mehr Offline-Daten in die Webanalyse-Systeme importiert werden können oder Webanalyse-Daten in andere Systeme integriert und dort analysiert werden.

Der letzte zu klärende Begriff ist Data Science. Auch hier existiert keine allgemein akzeptierte Definition, aber man könnte hierunter die Überschneidung beziehungsweise den interdisziplinären Einsatz von Data Mining, Datenanalyse und Machine Learning verstehen. Provost und Fawcett beschreiben Data Science wie folgt:

Data science involves principles, processes, and techniques for understanding phenomena via the (automated) analysis of data.

Pierson definiert:

Data Science is the computational science of extracting meaningful insights from raw data and then effectively communicating those insights to generate value.

Provost und Fawcett die Begriffe „Data Science“ und „Data Mining“ fast austauschbar, wobei Data Mining in ihrer Definition nicht erwähnt wird. Gleichzeitig verweisen sie darauf, wie jung dieses Feld noch ist und die heutigen Data Scientists in mehreren Gebieten bewandt sein müssen:

The particular concerns of data science are fairly new and general principles are just beginning to emerge. The state of data science may be likened to that of chemistry in the mid-19th century, when theo- ries and general principles were being formulated and the field was largely experimental. Every good chemist had to be a competent lab technician. Similarly, it is hard to imagine a working data scientist who is not proficient with certain sorts of software tools.

Um Daten automatisiert auswerten zu können, wird ein Statistik-Grundwissen vorausgesetzt. Eine Schnittmenge zwischen dem klar definierten Bereich der Statistik und dem noch schwammigen Bereich der Data Science ist also erkennbar. Da Web Analyse und Statistik auch Überschneidungen haben (sollten), kann Data Science im Web Analyse-Bereich somit als die automatisierte Analyse zur Identifikation und dem Verständnis von Internetdaten definiert werden. Im Hinblick auf Piersons Definition wird aber auch gleich eine weitere Schwäche der Web Analysten deutlich: Sie verwenden häufig aggregierte Daten, keine Rohdaten. Tatsächlich sind viele Web Analysten auch keine Programmierer, die Algorithmen zur Auswertung von Daten konzipieren könnten. Und wie oben festgestellt, fehlen ihnen auch häufig die Statistik-Grundlagen.

Das Ziel dieses Kurses ist, die Brücke zwischen den einzelnen Disziplinen zu schlagen und sowohl Grundkenntnisse in Statistik als auch technische Kompetenz sowie Data Science-Ansätze zu vermitteln. Das Tolle an Web Analytics-Daten ist, dass jeder schon mal auf einer Webseite war und somit auch nachvollziehen kann, was für Daten gesammelt werden können.

Nächster Abschnitt: Das Business Problem verstehen

Sistrix Traffic versus Google AdWords Keyword Planner

Wer hier öfter mitliest, der weiß, dass Sistrix eines meiner absoluten Lieblings-Tools ist (ich verlinke mal ganz dreist als bestes SEO Tool), allein schon wegen der schlanken API, dem absolut liebenswürdigen Johannes mit seinen wirklich schlauen Blog-Posts sowie der Unaufgeregtheit, mit der die Toolbox immer wieder überzeugt. Natürlich sind auch alle anderen Tools klasse, aber Sistrix ist sowas wie meine erste große Tool-Liebe, die man nicht aus seinem SEO-Gedächtnis verbannen kann oder will. Und auch wenn die folgenden Daten eventuell am Lack kratzen könnten, eine richtige Delle haben sie in meiner Sistrix-Präferenz nicht verursacht.  “Sistrix Traffic versus Google AdWords Keyword Planner” weiterlesen

Data Science meets SEO, Teil 5

Der letzte Teil dieser Serie über Suchmaschinenoptimierung/SEO und Data Science auf Basis meines Vortrags bei der SEO Campixx. Die Daten und den Code habe ich via Knit in ein HTML-Dokument überführt, das mein Notebook inklusive Daten nachvollziehbar macht. In dem Notebook sind auch ein paar mehr Untersuchungen drin, allerdings habe ich alles auf Englisch dokumentiert, da dies nicht nur für Deutsche interessant ist. Wer also alle Ergebnisse in einem Dokument lesen möchte (ohne die TF/IDF, WDF/IDF oder Stemming-Beispiele), schaut sich bitte das Data Science & SEO Notebook an. Speed und andere Faktoren sind in den vorherigen Teilen zu lesen. “Data Science meets SEO, Teil 5” weiterlesen

Data Science meets SEO, Teil 3

In den ersten beiden Teilen ging es darum, was Data Science überhaupt ist und warum WDF/IDF-Werte sehr wahrscheinlich wenig mit dem zu tun haben, was bei Google unter der Motorhaube passiert. In diesem Teil geht es einen Schritt weiter, wir schauen nämlich, ob es Korrelationen zwischen Ranking Signalen und der Position gibt. Im Vortrag hatte ich das am Beispiel einer Suchanfrage gezeigt und angesichts der zur Verfügung stehenden Zeit auch eher kurz abgehandelt. Hier kann ich in die Tiefe gehen. Wir schauen uns hierbei allerdings erst einmal nur jedes einzelne Rankingsignal in Bezug auf die Positon an, nicht die eventuell vorhandene Wirkung der Rankingsignale untereinander. “Data Science meets SEO, Teil 3” weiterlesen

Data Science meets SEO, Teil 2

Nachdem ich im ersten Teil erklärt habe, was Data Science ist und was es in diesem Bereich schon zum Thema SEO gibt, nun der zweite Teil, wo wir uns etwas genauer damit beschäftigen, was die linguistische Verarbeitung eines Dokuments durch eine Suchmaschine für eine Auswirkung auf SEO-Konzepte wie Keyword Density, TF/IDF und WDF/IDF hat. Da ich auf der SEO Campixx live Code gezeigt habe, biete ich hier alles zum Download an, was das Nachvollziehen der Beispiele noch erlebnisreicher macht 🙂 Das geht übrigens auch ohne die Installation von R, hier ist der komplette Code mit Erklärungen und Ergebnissen zu finden. “Data Science meets SEO, Teil 2” weiterlesen

What is Data Science?

There is no official definition of Data Science (similar to “Big Data”); we will regard data science as the combination of different disciplines: data mining, statistics and machine learning in order to derive information from data automatically. Whilst many of the approaches used in these fields have existed for a long time already, more and more free programming libraries, cheap computing time and storage space (e.g. from AWS) as well as more available data due to the new online world have been enabling more people to use the power of coping with huge amounts or complex data.

Data Analytics or Data Analysis can be regarded as a subset of Data Science, setting the focus on the analysis of data. Being very similar to statistics, the term “data analysis” is sometimes regarded as old wine in new bottles. The existence of huge and complex data, often termed as “big data”, is not required for data analysis. Most often, quality is more restricting than quantity. In fact, there is no official definition of “big data”, and just because it is “a lot of data”, it should still not be called “Big” data. Some people even say, there is no thing such as big data.