Dashboards: Actionable Insights

Dashboards werden häufig gewählt, um wichtige Informationen an einem Ort parat zu haben. Hier gilt alles, was im vorherigen Abschnitt erwähnt wurde. Welche Information soll bei dem Nutzer des Dashboards ankommen?

In der Regel geht es darum, dass verständlich darüber informiert werden soll, wo auf dem Weg der Zielerreichung man sich gerade befindet. Ein Dashboard ist daher immer gekoppelt an ein Ziel. Es sagt aus:

  • wie weit man vom Ziel entfernt ist
  • Ob man das Ziel innerhalb der gesetzten Zeit erreichen wird
  • Was dazu beiträgt, ob das Ziel erreicht wird oder nicht

Dashboards schauen also nicht nur in die Vergangenheit, sie versuchen auch eine Prognose für die Zukunft abzugeben.

Visualisierung von Daten

Die Flut von einfach zu bedienenden und manchmal auch kostenlosen Werkzeugen hat dafür gesorgt, dass Daten nicht immer sinnvoll visualisiert werden. Excel bietet zum Beispiel viele verschiedene Diagramm-Arten, nicht jede davon ist sinnvoll für die Daten, die visualisiert werden sollen. Um es kurz zu machen: Daten-Visualisierung ist nicht einfach, selbst wenn die vielen Werkzeuge es einfach machen.

Tortendiagramme sind zum Beispiel eine häufig verwendete Visualisierung, um Anteile zu zeigen. Allerdings kann hier keine Entwicklung von Anteilen dargestellt werden.

Gestapelte Bar Charts sind dafür eventuell besser geeignet, aber was wenn wir mehrere Anteilsparteien haben und eine Entwicklung über mehrere Jahre zeigen wollen? Ist das dann immer noch eine gute Visualisierung?

Primär geht es bei einer Visualisierung, eine Erkenntnis zu verstärken oder sogar den Erkenntnisgewinn zu beschleunigen. Eine Visualisierung soll helfen, einen Sachverhalt schneller verstehen zu können. Es geht also darum, dass eine Information encodiert werden muss, damit diese schneller vom Empfänger decodiert werden kann.

Hinzu kommt, dass überlegt werden muss, welchen Effekt eine Visualisierung auf einen Betrachter haben soll. Was ist die Intention hinter der Visualisierung? Hier kommen wir wieder zurück auf die Dreifaltigkeit der Daten, nämlich dass nicht nur Daten und Informationen dargestellt werden sollen, sondern auch Aktionen daraus abgeleitet werden können.

Neben der erläuternden Darstellung eines Sachverhalts können Visualisierungen auch dazu genutzt werden, den Nutzer selbst Daten interaktiv explorieren zu lassen.

Wann ist Schluss mit dem Hype um Data Science?

Jeder will Data Scientists haben. Hochschulen bieten Studiengänge an. Coursera & Co überschlagen sich mit Data Science-Angeboten. Daten sind das neue Öl. Ohne Daten und die sie zu Gold machenden Data Scientists sei die Zukunft düster, da sind sich alle einig. Selbst wenn man keine spannenden Daten hat, so kann ein Data Scientist vielleicht aus dem Wenigen schon Goldstaub zaubern. Also wird ein Bedarf an Data Scientists gemeldet, ohne überhaupt zu wissen, ob man sie überhaupt beschäftigen kann. Auf dem Hype Cycle sind wir immer noch nicht ganz oben angekommen, aber es wird nicht mehr lange dauern, bis es runter geht ins Tal der Ernüchterung (und dann zum Plateau der Produktivität. Schuld daran haben mehrere Missverständnisse.

Es gibt keine allgemeingültige Definition von Data Science

Somit kann sich jeder Data Scientist nennen, wer das gerne möchte.  Und man kann auch einen Kurs oder einen Studiengang danach betiteln, weil es gerade schick ist. Meiner Meinung nach passiert genau das momentan zu häufig.

Für mich ist Data Science das Zusammenspiel aus Data Mining, Statistik und Machine Learning. Und genau das biete ich in meinen Kursen an. Und damit wir uns gleich richtig verstehen: Ein Semester ist dafür viel zu wenig. Und deshalb nennen wir das auch nicht mal Data Science, sondern Data Analytics oder Ähnliches. Wir schnuppern rein in Data Science. Aber in den 60 Stunden im Semester entwickle ich keinen neuen Data Scientist.

Im Prinzip müsste man meiner Meinung nach erst einmal mindestens ein Semester Statistik unterrichten, bevor es weiter geht. Dann eine Programmiersprache richtig lernen, sei es R oder Python. Und dann würde man mit Machine Learning beginnen. Dazwischen immer mal wieder erklären, wie man mit Linux/Unix umgeht. Datenbanken. Cloud-Technologie. Damit kann man sicherlich ein ganzes Studium füllen.

Oft ist es aber nur eine Einführung in Python mit etwas scikit. Aber, wie oben schon beschrieben, das ist egal, denn der Begriff ist eh nicht geschützt. Und es merkt auch kaum jemand, denn wer soll das denn beurteilen?

Es gibt noch keine ausreichende Ausbildung

Vor kurzem habe ich mal in einen Data Science-Kurs auf Udemy reingeschnuppert (der übrigens immer nur noch wenige Stunden gerade mal ein paar Euro kostet). Der junge Mann in seinem Gamer-Stuhl konnte gut reden, aber in die Tiefe konnte er nicht gehen. Wobei, es kommt darauf an, wie man Tiefe definiert. Der inhaltliche Tiefpunkt war für mich erreicht, als er sagte, dass man gewisse Dinge mathematisch nicht verstehen muss, zum Beispiel ob man durch n oder durch n-1 teilt. Wow.

Dann habe ich auch schon mehrere Informatik- o.ä. Studierende von der Uni Hamburg etc bei mir gehabt. Abgesehen davon, dass ihnen grundlegende Kenntnisse fehlen (“Was ist eine CSV-Datei?”), haben sie zwar ein paar Techniken gelernt, die sie auch brav in die Bewerbung schreiben (“Erfahrung in ML”), aber richtig verstanden haben sie nicht, was sie da tun. So wird k-means gerne auf alles geballert, auch wenn es keine numerischen Daten sind (die kann man ja einfach umwandeln, dann sind sie ja numerisch). Dass das selten Sinn ergibt, wenn man euklidische Distanzen berechnet, nun ja. Wenn man nur einen Hammer hat, dann sieht alles aus wie ein Nagel.

Wenn aber die Ausbildung suboptimal ist, wie sollen die Data Scientists dann Gold aus Daten generieren? Für den wirklich krassen Kram wird eine solche Ausbildung nicht ausreichen. Und entweder wird dann Mist geliefert oder das Projekt geht nie zu Ende. Das erinnert mich ein bisschen an die New Economy als plötzlich jeder HTML-Seiten bauen konnte. Nur diejenigen, die mehr als HTML konnten, haben nach dem Crash noch Chancen auf einen Job gehabt. Und zu viele Läden gingen pleite, weil sie einfach nur schwach ausgebildete Leute eingestellt hatten.

Nicht jedes Problem benötigt einen Data Scientist

Ich behaupte mal ganz dreist, dass sich viele Probleme auch ohne einen Data Scientist nach meiner obigen Definition lösen lassen. Tatsächlich sind viele Methoden bereits in der Statistik gut behandelt worden, von der Regressionsanalyse bis zur Bayesian Inferenz. Auch Klassifikation und Clustering gab es lange vor Data Science. Support Vector Machines sind auch schon etwas älter. Das einzig Neue ist, dass es viel mehr Bibliotheken gibt, die jeder anwenden kann. Aber man muss nicht sofort an Data Science denken, wenn es um diese Themen geht. Denn da zahlt man gleich einen Hype-Bonus mit.

Was wenn nicht Data Science wird wichtig?

Natürlich wird die Arbeit mit Daten in Zukunft nicht weniger wichtig werden. Ganz im Gegenteil. Aber ich befürchte, dass der gegenwärtige Hype diesem neuen Gewächs nicht gut tut. Da es dort jede Menge Geld zu verdienen gibt, stürzen sich auch Talente darauf, deren bisheriger Fokus nicht unbedingt auf Mathematik-nahen Fächern lag. Einen Udemy-Kurs kann jeder irgendwie abschließen. Aber die Qualität ist nicht bei jedem Kurs gleich gut. Und dementsprechend ist diese Art der Ausbildung sowie auch das plumpe Lernen von Methoden an der Uni nicht hilfreich, Data Science nach vorne zu treiben. Dadurch wird Data Science eher enttäuschen und in das Tal der Enttäuschung abrutschen. Denn es werden nicht alle Erwartungen erfüllt werden können.

Wir benötigen zum einen eine Definition, was Data Science ist, und danach eine Definition dessen, was man als Data Scientist tatsächlich können muss. Ansonsten ist der Hype wegen Erfolglosigkeit bald wieder vorbei.

Standardfehler und Konfidenzintervall

Wie in der Population gibt es auch in einer Stichprobe Abweichungen vom Mittelwert. Die Streuung um den Mittelwert wird mit der Standardabweichung angegeben, und das gilt auch für eine Stichprobe. Nun haben wir gerade schon die Stichprobenverteilung kennen gelernt, und die Standardabweichung der Mittelwertverteilung (Stichprobenverteilung des Mittelwerts) wird als Standardfehler des Mittels bezeichnet. Das hat nichts mit Fehlern zu tun, es wird damit lediglich die Genauigkeit der Schätzung des Mittelwerts beziffert. Denn tatsächlich wollen wir wissen, wie nah wir wahrscheinlich mit dem Mittelwert unseres Stichprobe an dem tatsächlichen Mittelwert der Population dran sind.

Allerdings haben wir nur theoretisch unendlich viele Stichproben gezogen. In der Realität haben wir meistens nur eine gezogen. Daher können wir den Standardfehler nur schätzen. Dies wird getan, indem die Standardabweichung der Stichprobe durch die Wurzel der Stichprobengröße teilt. Je größer die Stichprobe, desto geringer der Standardfehler.

Das Konfidenzintervall

Der Standardfehler wird benötigt, um das Konfidenzintervall zu bestimmen. Vereinfacht gesagt kann der Standardfehler einfach mit 1.96 multipliziert werden, wenn ein Konfidenzniveau von 95% verwendet wird (die Zahlen sind schon aus den Standardabweichungen bekannt. Das Konfidenzintervall ist also zwischen dem Stichprobenmittelwert minus Standardfehler * 1.96 und Stichprobenmittelwert plus Standardfehler.

Stichprobenverteilung des Mittelwerts

Die Stichprobenverteilung des Mittelwerts ist zentral für viele Konzepte in der Statistik.

Wenn wir eine Stichprobe aus einer Population ziehen und das Mean berechnen, dann wissen wir nicht, wie weit das Mean unserer Stichprobe von dem Mean unserer Population entfernt ist. Wir könnten uns zum Beispiel dafür interessieren, wie der IQ aller Schüler oder Studierenden im Gebäude ist, aber das es zu aufwändig ist, alle zu testen, nehmen wir eine Stichprobe. Wie wahrscheinlich ist es, dass das arithmetische Mittel des IQs unseres Samples genau mit dem Mittelwert des IQs übereinstimmt?

Tatsächlich wissen wir es nicht. Aber stellen wir uns einmal vor, dass wir nicht nur ein Sample nehmen, sondern ganz viele Samples. Und bei jedem Sample berechnen wir den Mittelwert. Dann können wir alle erhaltenen Mittelwerte der Stichproben plotten, zum Beispiel in einem Histogramm, und dann erhalten wir meistens etwas, das sehr ähnlich aussieht wie eine Normalverteilung. Und das funktioniert auch, wenn unsere Population nicht normalverteilt ist! Ein sehr schönes Tool, um das selber festzustellen, findet sich hier. Dies ist die Aussage des Zentralen Grenzwertsatzes, sofern die Samples groß genug sind. “Groß genug” bedeutet hier, dass sie größer als 30 sein sollten. Dies wird häufig damit verwechselt, dass man nur 30 Beobachtungen benötigt, um statistisch signifikant zu sein. Tatsächlich ist damit nur besagt, dass wir dann annähernd eine Normalverteilung bei der Stichprobenverteilung des Mittelwerts erhalten. Allerdings haben Normalverteilungen viele Eigenschaften, die wir kennen und mit denen wir leichter arbeiten können 🙂 So ist der Mittelwert dieser Mittelwertverteilung ein erwartungstreuer Schätzer des Mittelwerts der Population.

Zur Verdeutlichung dieses Konzepts kann noch dieses Video angesehen werden:

Nun kommt die große Überraschung: Wir nehmen gar nicht mehrere Samples. Wir bleiben bei einem Sample. Alles andere wäre eh zu aufwändig. Aber schon bei einem Sample wissen wir eine ganze Menge, denn da wir uns in einer Normalverteilung befinden, wissen wir, dass sich ca. 95% aller Sample-Means innerhalb von 2 Standardabweichungen +/- vom Mean befinden, von dem wir wissen, dass es dem Populations-Mean sehr nah ist. Der Mittelwert unseres Samples ist also mit einer Wahrscheinlichkeit von ca. 95% innerhalb von 2 Standardabweichungem! Vielleicht haben wir Pech, und wir sind in den 5% außerhalb der beiden Standardabweichungen. Aber vielleicht auch nicht. Statistik ist, wie wir gerade sehen, keine Wissenschaft, in der man sich konkret festlegt, dass etwas zu 100% sicher ist 🙂

Vergleichen wir also 2 Means miteinander, zum Beispiel aus einem Sample mit der Gesamtpopulation und einem Sample aus einer Population, die ein Treatment hatte (ein Kurs bei mir, der Statistik-Verständnis-Pillen genommen hat), dann ist es unwahrscheinlich, dass sich kein Unterschied im Statistik-Verständnis ergeben hat, wenn meine Studierenden nach Konsum der Statisik-Verständnis-Pille im Mean mehr als 2 Standardabweichungen besser abgeschnitten haben. Wir befinden uns also nun bereits im Gebiet der Statistischen Signifikanz und den p-Werten…

Glossar

Absprungrate Es existieren zwei Definitionen. In der einen Definition ist die Absprungrate der Anteil der Nutzer, die sich nur eine Seite ansehen, in der anderen Definition der Anteil der Nutzer, die auf eine Seite kommen und diese “sofort” wieder verlassen. Die letztere Absprungrate wird auch Adjusted Bounce Rate oder angepasste Bounce Rate genannt. Der Standard in den meisten Systemen ist die einfache Absprungrate.
Adjusted Bounce Rate Siehe Absprungrate
Bounce Rate Siehe Absprungrate
CLV Customer Lifetime Value; ein Kunde kauft eventuell nicht nur einmal, sondern mehrmals. Der erste Kauf ist für den Verkäufer nicht profitabel, die weiteren aber schon. Ein gutes Beispiel sind hier Drucker und Tintenpatronen.
CPA Cost per Acquisition, ähnlich wie CPO, wird aber für Transaktionen genutzt, die keine Order sind, zum Beispiel Kosten pro Fan bei Facebook.
CPC Cost per Click, Kosten pro Klick. Bei AdWords wird der Preis für einen Klick auf eine Anzeige zum Beispiel in einer Auktion bestimmt.
CPO Cost per Order, Kosten pro Bestellung. Angenommen, wir bezahlen für die 100 Nutzer im vorigen Beispiel 100 Euro (1 Euro CPC), dann läge der CPO bei einer CVR von 1% bei 100 Euro
CPM/TKP Cost per Mille oder Tausendkontaktpreis. Der TKP ist eine Währung, die schon bei Printmagazinen genutzt wurde und beschreibt wie viel Geld man für eine Anzeige zahlt bei einer Auflage pro 1000 Stück.
CTR Abkürzung für Click Through Rate, auf Deutsch Klickrate. Wird eine Anzeige zum Beispiel 100 Mal eingeblendet und 2 Mal angeklickt, so ergäbe das eine Klickrate von 2%.
CVR ConversionRate, Konversionsrate .Von 100 Besuchern auf einer Website kauft nur einer etwas im Shop, so dass die CVR dann bei 1% liegt
KUR Kosten-Umsatz-Relation, eine Alternative zum CPO. Hier werden die Gesamtkosten (CPO) durch den Umsatz geteilt, auch nach Retouren.
Sitzung/Session Kommt ein Benutzer auf eine Website, so beginnt das,was in Google Analytics eine Sitzung oder auf Englisch Session genannt wird. Der Benutzer schaut sich mehrere Seiten der Website an, alles innerhalb einer Sitzung. In Analytics ist eine Sitzung mit 30 Minuten definiert, wobei diese 30 Minuten immer wieder neu beginnen, wenn der Benutzer mit der Website interagiert. Die Session endet aber spätestens um Mitternacht oder wenn der Benutzer die Website verlässt und über einen anderen Kanal zurückkehrt. Die Sessiondauer kann außerdem definiert werden.
TKP Siehe CPM
Unique User Derselbe Benutzer kann mehrmals auf eine Website kommen und mehrere Sitzungen auslösen. Es ist aber immer derselbe Nutzer und wird als unique user bezeichnet.

Experimente

Das klassische Experiment ist ein a/b-Test, bei dem eine Kontrollgruppe mit einer Testvergruppe verglichen wird, die ein “Treatment” erhalten hat. Durch den Test soll die Wirkung des Treatments herausgefunden werden. Das kann so funktionieren, dass eine Gruppe von Kranken in zwei Untergruppen geteilt wird, von denen eine Subgruppe ein Placebo erhält und die andere Subgruppe ein richtiges Medikament. Ist die Wirkung des Medikaments statistisch signifikant besser als das des Placebos, so wird eine allgemeine Wirkung des Medikaments angenommen.

In der Internetwelt wird einem Teil der Nutzer etwas anderes angezeigt als einem anderen Teil und dann die Wirkung, zum Beispiel eine Änderung im Kaufverhalten gemessen.

Wichtig ist, dass solche Experimente gleichzeitig stattfinden, also nicht erst die Kontrollgruppe und dann die Testgruppe, da externe Faktoren den Kontext geändert haben können.

Datengetriebene Personas mit Assoziationsregeln

Über Personas habe ich mich ja schon an anderer Stelle ausgelassen, in diesem Artikel geht es um die datengetriebene Generierung von Personas. Ich halte mich an die Definition des Persona-Erfinders Cooper und sehe eine Persona als Prototyp für eine Gruppe von Nutzern. Dies kann auch fürs Marketing interessant sein, denn schließlich lässt dich damit eine bedürfnis- und erfahrungsorientierte Kommunikation zum Beispiel auf einer Webseite erstellen. Personas sind keine Zielgruppen, aber dazu an anderer Stelle mehr. „Datengetriebene Personas mit Assoziationsregeln“ weiterlesen

Google Optimize hacken: Von Bayes, p-Werten, A/A-Tests und vergessenen Metriken

Google Optimize ist eines meiner Lieblings-Tools, denn es ermöglicht jedem schnell a/b-Tests zu bauen; in meinen Kursen staunen die Teilnehmer häufig, wie schnell so ein Test online sein kann. Natürlich ist die Vorarbeit, das saubere Erstellen einer Hypothese, nicht so schnell getan, aber es macht auch keinen Spaß, monatelang auf die Live-Schaltung eines Tests zu warten. Über die Vorzüge von Google Optimize will ich auch gar nicht weiter eingehen, sondern stattdessen auf drei Feinheiten hinweisen, die nicht so offensichtlich sind. „Google Optimize hacken: Von Bayes, p-Werten, A/A-Tests und vergessenen Metriken“ weiterlesen

Machine Learning: Association Rules

Association rules sind ein Machine Learning-basierter Ansatz zum Mining von Relationen in Daten. Die Market Basket Analysis verwendet zum Beispiel Association Rule Mining, um Produkte zu identifizieren, die häufig zusammen gekauft werden (“Co-Occurrence” als Assoziation). Wir können Association Rules Mining als Data Mining betrachten und damit als Teil von Data Science. Association Rules werden aber nicht nur für Warenkörbe verwendet, sondern für viele verschiedene Transaktions-Daten, zum Beispiel auch für Web Usage Mining. Häufig werden im Association Rule Mining große Datenmengen untersucht, wobei die einzelnen Observationen nur wenig Daten enthalten (“sparse data“).

Metriken

Das Ergebnis von Association Rules Mining wird in Regeln ausgegeben, die folgendermaßen aussehen:

  • Regel
  • Support
  • Confidence
  • Lift

Eine Regel geht von einer Richtung in eine andere, also [Item1] => [Item2].