Dashboards: Actionable Insights

Dashboards werden häufig gewählt, um wichtige Informationen an einem Ort parat zu haben. Hier gilt alles, was im vorherigen Abschnitt erwähnt wurde. Welche Information soll bei dem Nutzer des Dashboards ankommen?

In der Regel geht es darum, dass verständlich darüber informiert werden soll, wo auf dem Weg der Zielerreichung man sich gerade befindet. Ein Dashboard ist daher immer gekoppelt an ein Ziel. Es sagt aus:

  • wie weit man vom Ziel entfernt ist
  • Ob man das Ziel innerhalb der gesetzten Zeit erreichen wird
  • Was dazu beiträgt, ob das Ziel erreicht wird oder nicht

Dashboards schauen also nicht nur in die Vergangenheit, sie versuchen auch eine Prognose für die Zukunft abzugeben.

Visualisierung von Daten

Die Flut von einfach zu bedienenden und manchmal auch kostenlosen Werkzeugen hat dafür gesorgt, dass Daten nicht immer sinnvoll visualisiert werden. Excel bietet zum Beispiel viele verschiedene Diagramm-Arten, nicht jede davon ist sinnvoll für die Daten, die visualisiert werden sollen. Um es kurz zu machen: Daten-Visualisierung ist nicht einfach, selbst wenn die vielen Werkzeuge es einfach machen.

Tortendiagramme sind zum Beispiel eine häufig verwendete Visualisierung, um Anteile zu zeigen. Allerdings kann hier keine Entwicklung von Anteilen dargestellt werden.

Gestapelte Bar Charts sind dafür eventuell besser geeignet, aber was wenn wir mehrere Anteilsparteien haben und eine Entwicklung über mehrere Jahre zeigen wollen? Ist das dann immer noch eine gute Visualisierung?

Primär geht es bei einer Visualisierung, eine Erkenntnis zu verstärken oder sogar den Erkenntnisgewinn zu beschleunigen. Eine Visualisierung soll helfen, einen Sachverhalt schneller verstehen zu können. Es geht also darum, dass eine Information encodiert werden muss, damit diese schneller vom Empfänger decodiert werden kann.

Hinzu kommt, dass überlegt werden muss, welchen Effekt eine Visualisierung auf einen Betrachter haben soll. Was ist die Intention hinter der Visualisierung? Hier kommen wir wieder zurück auf die Dreifaltigkeit der Daten, nämlich dass nicht nur Daten und Informationen dargestellt werden sollen, sondern auch Aktionen daraus abgeleitet werden können.

Neben der erläuternden Darstellung eines Sachverhalts können Visualisierungen auch dazu genutzt werden, den Nutzer selbst Daten interaktiv explorieren zu lassen.

Wann ist Schluss mit dem Hype um Data Science?

Jeder will Data Scientists haben. Hochschulen bieten Studiengänge an. Coursera & Co überschlagen sich mit Data Science-Angeboten. Daten sind das neue Öl. Ohne Daten und die sie zu Gold machenden Data Scientists sei die Zukunft düster, da sind sich alle einig. Selbst wenn man keine spannenden Daten hat, so kann ein Data Scientist vielleicht aus dem Wenigen schon Goldstaub zaubern. Also wird ein Bedarf an Data Scientists gemeldet, ohne überhaupt zu wissen, ob man sie überhaupt beschäftigen kann. Auf dem Hype Cycle sind wir immer noch nicht ganz oben angekommen, aber es wird nicht mehr lange dauern, bis es runter geht ins Tal der Ernüchterung (und dann zum Plateau der Produktivität. Schuld daran haben mehrere Missverständnisse.

„Wann ist Schluss mit dem Hype um Data Science?“ weiterlesen

Standardfehler und Konfidenzintervall

Wie in der Population gibt es auch in einer Stichprobe Abweichungen vom Mittelwert. Die Streuung um den Mittelwert wird mit der Standardabweichung angegeben, und das gilt auch für eine Stichprobe. Nun haben wir gerade schon die Stichprobenverteilung kennen gelernt, und die Standardabweichung der Mittelwertverteilung (Stichprobenverteilung des Mittelwerts) wird als Standardfehler des Mittels bezeichnet. Das hat nichts mit Fehlern zu tun, es wird damit lediglich die Genauigkeit der Schätzung des Mittelwerts beziffert. Denn tatsächlich wollen wir wissen, wie nah wir wahrscheinlich mit dem Mittelwert unseres Stichprobe an dem tatsächlichen Mittelwert der Population dran sind.

Allerdings haben wir nur theoretisch unendlich viele Stichproben gezogen. In der Realität haben wir meistens nur eine gezogen. Daher können wir den Standardfehler nur schätzen. Dies wird getan, indem die Standardabweichung der Stichprobe durch die Wurzel der Stichprobengröße teilt. Je größer die Stichprobe, desto geringer der Standardfehler.

Das Konfidenzintervall

Der Standardfehler wird benötigt, um das Konfidenzintervall zu bestimmen. Vereinfacht gesagt kann der Standardfehler einfach mit 1.96 multipliziert werden, wenn ein Konfidenzniveau von 95% verwendet wird (die Zahlen sind schon aus den Standardabweichungen bekannt. Das Konfidenzintervall ist also zwischen dem Stichprobenmittelwert minus Standardfehler * 1.96 und Stichprobenmittelwert plus Standardfehler.

Stichprobenverteilung des Mittelwerts

Die Stichprobenverteilung des Mittelwerts ist zentral für viele Konzepte in der Statistik.

Wenn wir eine Stichprobe aus einer Population ziehen und das Mean berechnen, dann wissen wir nicht, wie weit das Mean unserer Stichprobe von dem Mean unserer Population entfernt ist. Wir könnten uns zum Beispiel dafür interessieren, wie der IQ aller Schüler oder Studierenden im Gebäude ist, aber das es zu aufwändig ist, alle zu testen, nehmen wir eine Stichprobe. Wie wahrscheinlich ist es, dass das arithmetische Mittel des IQs unseres Samples genau mit dem Mittelwert des IQs übereinstimmt?

Tatsächlich wissen wir es nicht. Aber stellen wir uns einmal vor, dass wir nicht nur ein Sample nehmen, sondern ganz viele Samples. Und bei jedem Sample berechnen wir den Mittelwert. Dann können wir alle erhaltenen Mittelwerte der Stichproben plotten, zum Beispiel in einem Histogramm, und dann erhalten wir meistens etwas, das sehr ähnlich aussieht wie eine Normalverteilung. Und das funktioniert auch, wenn unsere Population nicht normalverteilt ist! Ein sehr schönes Tool, um das selber festzustellen, findet sich hier. Dies ist die Aussage des Zentralen Grenzwertsatzes, sofern die Samples groß genug sind. “Groß genug” bedeutet hier, dass sie größer als 30 sein sollten. Dies wird häufig damit verwechselt, dass man nur 30 Beobachtungen benötigt, um statistisch signifikant zu sein. Tatsächlich ist damit nur besagt, dass wir dann annähernd eine Normalverteilung bei der Stichprobenverteilung des Mittelwerts erhalten. Allerdings haben Normalverteilungen viele Eigenschaften, die wir kennen und mit denen wir leichter arbeiten können 🙂 So ist der Mittelwert dieser Mittelwertverteilung ein erwartungstreuer Schätzer des Mittelwerts der Population.

Zur Verdeutlichung dieses Konzepts kann noch dieses Video angesehen werden:

Nun kommt die große Überraschung: Wir nehmen gar nicht mehrere Samples. Wir bleiben bei einem Sample. Alles andere wäre eh zu aufwändig. Aber schon bei einem Sample wissen wir eine ganze Menge, denn da wir uns in einer Normalverteilung befinden, wissen wir, dass sich ca. 95% aller Sample-Means innerhalb von 2 Standardabweichungen +/- vom Mean befinden, von dem wir wissen, dass es dem Populations-Mean sehr nah ist. Der Mittelwert unseres Samples ist also mit einer Wahrscheinlichkeit von ca. 95% innerhalb von 2 Standardabweichungem! Vielleicht haben wir Pech, und wir sind in den 5% außerhalb der beiden Standardabweichungen. Aber vielleicht auch nicht. Statistik ist, wie wir gerade sehen, keine Wissenschaft, in der man sich konkret festlegt, dass etwas zu 100% sicher ist 🙂

Vergleichen wir also 2 Means miteinander, zum Beispiel aus einem Sample mit der Gesamtpopulation und einem Sample aus einer Population, die ein Treatment hatte (ein Kurs bei mir, der Statistik-Verständnis-Pillen genommen hat), dann ist es unwahrscheinlich, dass sich kein Unterschied im Statistik-Verständnis ergeben hat, wenn meine Studierenden nach Konsum der Statisik-Verständnis-Pille im Mean mehr als 2 Standardabweichungen besser abgeschnitten haben. Wir befinden uns also nun bereits im Gebiet der Statistischen Signifikanz und den p-Werten…

Glossar

Absprungrate Es existieren zwei Definitionen. In der einen Definition ist die Absprungrate der Anteil der Nutzer, die sich nur eine Seite ansehen, in der anderen Definition der Anteil der Nutzer, die auf eine Seite kommen und diese “sofort” wieder verlassen. Die letztere Absprungrate wird auch Adjusted Bounce Rate oder angepasste Bounce Rate genannt. Der Standard in den meisten Systemen ist die einfache Absprungrate.
Adjusted Bounce Rate Siehe Absprungrate
Bounce Rate Siehe Absprungrate
CLV Customer Lifetime Value; ein Kunde kauft eventuell nicht nur einmal, sondern mehrmals. Der erste Kauf ist für den Verkäufer nicht profitabel, die weiteren aber schon. Ein gutes Beispiel sind hier Drucker und Tintenpatronen.
CPA Cost per Acquisition, ähnlich wie CPO, wird aber für Transaktionen genutzt, die keine Order sind, zum Beispiel Kosten pro Fan bei Facebook.
CPC Cost per Click, Kosten pro Klick. Bei AdWords wird der Preis für einen Klick auf eine Anzeige zum Beispiel in einer Auktion bestimmt.
CPO Cost per Order, Kosten pro Bestellung. Angenommen, wir bezahlen für die 100 Nutzer im vorigen Beispiel 100 Euro (1 Euro CPC), dann läge der CPO bei einer CVR von 1% bei 100 Euro
CPM/TKP Cost per Mille oder Tausendkontaktpreis. Der TKP ist eine Währung, die schon bei Printmagazinen genutzt wurde und beschreibt wie viel Geld man für eine Anzeige zahlt bei einer Auflage pro 1000 Stück.
CTR Abkürzung für Click Through Rate, auf Deutsch Klickrate. Wird eine Anzeige zum Beispiel 100 Mal eingeblendet und 2 Mal angeklickt, so ergäbe das eine Klickrate von 2%.
CVR ConversionRate, Konversionsrate .Von 100 Besuchern auf einer Website kauft nur einer etwas im Shop, so dass die CVR dann bei 1% liegt
KUR Kosten-Umsatz-Relation, eine Alternative zum CPO. Hier werden die Gesamtkosten (CPO) durch den Umsatz geteilt, auch nach Retouren.
Sitzung/Session Kommt ein Benutzer auf eine Website, so beginnt das,was in Google Analytics eine Sitzung oder auf Englisch Session genannt wird. Der Benutzer schaut sich mehrere Seiten der Website an, alles innerhalb einer Sitzung. In Analytics ist eine Sitzung mit 30 Minuten definiert, wobei diese 30 Minuten immer wieder neu beginnen, wenn der Benutzer mit der Website interagiert. Die Session endet aber spätestens um Mitternacht oder wenn der Benutzer die Website verlässt und über einen anderen Kanal zurückkehrt. Die Sessiondauer kann außerdem definiert werden.
TKP Siehe CPM
Unique User Derselbe Benutzer kann mehrmals auf eine Website kommen und mehrere Sitzungen auslösen. Es ist aber immer derselbe Nutzer und wird als unique user bezeichnet.

Experimente

Das klassische Experiment ist ein a/b-Test, bei dem eine Kontrollgruppe mit einer Testvergruppe verglichen wird, die ein “Treatment” erhalten hat. Durch den Test soll die Wirkung des Treatments herausgefunden werden. Das kann so funktionieren, dass eine Gruppe von Kranken in zwei Untergruppen geteilt wird, von denen eine Subgruppe ein Placebo erhält und die andere Subgruppe ein richtiges Medikament. Ist die Wirkung des Medikaments statistisch signifikant besser als das des Placebos, so wird eine allgemeine Wirkung des Medikaments angenommen.

In der Internetwelt wird einem Teil der Nutzer etwas anderes angezeigt als einem anderen Teil und dann die Wirkung, zum Beispiel eine Änderung im Kaufverhalten gemessen.

Wichtig ist, dass solche Experimente gleichzeitig stattfinden, also nicht erst die Kontrollgruppe und dann die Testgruppe, da externe Faktoren den Kontext geändert haben können.

Datengetriebene Personas mit Assoziationsregeln

Über Personas habe ich mich ja schon an anderer Stelle ausgelassen, in diesem Artikel geht es um die datengetriebene Generierung von Personas. Ich halte mich an die Definition des Persona-Erfinders Cooper und sehe eine Persona als Prototyp für eine Gruppe von Nutzern. Dies kann auch fürs Marketing interessant sein, denn schließlich lässt dich damit eine bedürfnis- und erfahrungsorientierte Kommunikation zum Beispiel auf einer Webseite erstellen. Personas sind keine Zielgruppen, aber dazu an anderer Stelle mehr. „Datengetriebene Personas mit Assoziationsregeln“ weiterlesen

Google Optimize hacken: Von Bayes, p-Werten, A/A-Tests und vergessenen Metriken

Google Optimize ist eines meiner Lieblings-Tools, denn es ermöglicht jedem schnell a/b-Tests zu bauen; in meinen Kursen staunen die Teilnehmer häufig, wie schnell so ein Test online sein kann. Natürlich ist die Vorarbeit, das saubere Erstellen einer Hypothese, nicht so schnell getan, aber es macht auch keinen Spaß, monatelang auf die Live-Schaltung eines Tests zu warten. Über die Vorzüge von Google Optimize will ich auch gar nicht weiter eingehen, sondern stattdessen auf drei Feinheiten hinweisen, die nicht so offensichtlich sind. „Google Optimize hacken: Von Bayes, p-Werten, A/A-Tests und vergessenen Metriken“ weiterlesen

Machine Learning: Association Rules

Association rules sind ein Machine Learning-basierter Ansatz zum Mining von Relationen in Daten. Die Market Basket Analysis verwendet zum Beispiel Association Rule Mining, um Produkte zu identifizieren, die häufig zusammen gekauft werden (“Co-Occurrence” als Assoziation). Wir können Association Rules Mining als Data Mining betrachten und damit als Teil von Data Science. Association Rules werden aber nicht nur für Warenkörbe verwendet, sondern für viele verschiedene Transaktions-Daten, zum Beispiel auch für Web Usage Mining. Häufig werden im Association Rule Mining große Datenmengen untersucht, wobei die einzelnen Observationen nur wenig Daten enthalten (“sparse data“).

Metriken

Das Ergebnis von Association Rules Mining wird in Regeln ausgegeben, die folgendermaßen aussehen:

  • Regel
  • Support
  • Confidence
  • Lift

Eine Regel geht von einer Richtung in eine andere, also [Item1] => [Item2].