data > opinion

Tom Alby

5 Testen

2020-02-29


Sie sind hier: start / lehrveranstaltungen / digital analytics / 05 testen /

In der Regel wird getestet, nachdem eine Analyse erstellt wurde und ein potentieller Defekt identifiziert wurde. So könnte eine Webanalyse ergeben, dass Nutzer mit einem iPhone weniger Zeit auf einer Seite verbringen als Android-Nutzer, und nun mit einer Anpassung für iPhones getestet werden, ob die Nutzer dann ein ähnliches Verhalten aufzeigen wie die Android-Nutzer.

Die größte Herausforderung beim Testen ist nicht das Beherrschen eines Test-Werkzeugs, sondern das Konzipieren des Tests. Schließlich sollen die Effekte einer Änderung isoliert und gemessen werden. Dies bedeutet, wie so häufig, die zu testende Fragestellung möglichst genau zu spezifizieren und im nächsten Schritt festzulegen, wie eine Veränderung getestet werden soll. Dafür hat sich das in dem Kurs vorgestellte Hypothesen-Framework als sehr nützlich erwiesen.

Grundsätzlich wird unterschieden in

Bei a/b/n Tests wird die Kontrollversion a gegen eine Testversion b getestet und gegebenenfalls gegen weitere Testversionen c, d, …, hier durch n repräsentiert. Bei multivariaten Tests werden mehrere Elemente auf einer Seite gegeneinander getestet. Es existieren hier also viel mehr Varianten als bei einem typischen a/b/n-Test.

Formulieren einer Hypothese

Die Voraussetzung für einen Test ist eine Hypothese. Diese Hypothese ist eine Annahme oder wörtlich genommen eine „Unterstellung“, denn wir nehmen etwas an, von dem wir nicht wissen, dass es so ist, wollen aber herausfinden, ob es so ist. Dabei ist es wichtig, dass es sich um etwas Messbares handelt. Einfach zu sagen, dass eine Webseiten-Navigation schlecht ist, reicht nicht aus. Woran kann das festgemacht werden? Welche Daten belegen das? Natürlich sind nicht immer Daten vorhanden, es können auch Erfahrungswerte oder Best Practices sein. Gleichzeitig muss diese Annahme mit der Verbesserung eines KPIs zu tun haben. Mit welchem KPI können wir messen, dass die Navigation wirklich schlecht ist? Wir könnten uns zum Beispiel die Onsite Searches ansehen und feststellen, dass die Benutzer nach Begriffen suchen, die die Inhalte auf der Seite gut beschreiben, die aber nicht in der Navigation auftauchen. Wären die Labels also anders beschriftet, so müssten die Nutzer weniger suchen und könnten ihr Informationsbedürfnis mit der Navigation erfüllen. Die Anzahl der Onsite Searches wäre somit der KPI, um die Qualität der Navigation zu messen.

Gleichzeitig müssen die KPIs mit den Geschäftszielen einer Webseite korrespondieren. Wenn die Nutzer die Navigation nutzen anstatt der Suche, dann haben wir eventuell noch nicht einen Cent mehr in die Kasse gespült. Wir könnten auch die Anzahl der Bounces auf einer Seite als KPI nehmen, hätten hier aber den Nachteil, dass Bounces auch durch andere Faktoren entstehen können. Wir sehen, es ist schwierig, eine Hypothese in diesem Fall so zu formulieren, dass sich die gefühlte Verbesserung auch in monetären Vorteilen spiegelt.

Bewährt hat sich der Ansatz, eine Hypothese in vier Teile zu teilen:

Die Begriffe in rot müssen dann an die jeweilige Hypothese angepasst werden. An dem Beispiel der Navigation:

Indem ich die Labels in der Navigation, in denen sich meine Nutzer anscheinend nicht wiederfinden, so dass sie die Onsite Search nutzen müssen (>2% Onsite Search Anteil, was über dem Benchmark liegt) und eventuell eher abbrechen (70% der Nutzer brechen nach einer Suche ab), in Labels ändere, die mehr dem Vokabular der meisten Nutzer entsprechen, fühlen sich die Nutzer besser abgeholt und finden schneller, was sie wollen, so dass sie weniger Schritte und weniger Suchen benötigen und somit seltener abspringen und häufiger in den Conversion Funnel einsteigen und somit für mehr Umsatz sorgen. Wir haben somit eine daten-basierte Annahme getroffen und definieren mehrere KPIs, die uns helfen, den Effekt zu messen.

Umsetzung in Google Optimize

Google bietet eine gute Einführung in Optimize an. Im Kurs beschäftigen wir uns vor allem mit a/b Tests, da für multivariate Tests (multivariat, nicht multivariant!) viel Traffic erforderlich ist und ein a/b-Test relativ einfach gestaltet werden kann. Bitte arbeiten Sie diese Einleitung durch, bevor Sie hier weiter lesen.

Analyse der Test-Ergebnisse

Die populären Test-Werkzeuge nutzen unterschiedliche Test-Statistiken, um Gewinner zu ermitteln. Google Optimize ist eines der ersten Tools gewesen, dass die Bayes-Inferenz verwendet hat, die anders funktioniert als die so genannten frequentistischen Ansätze der meisten anderen Tools. Eine gute Einführung in die Bayes-Inferenz findet sich in einer auch von Google empfohlenen Präsentation. Auch bietet Google selbst in der Google Optimize-Hilfe eine verständliche Einführung in die Unterschiede.

In der Regel können Test-Ergebnisse nicht nur in den Tools selbst, sondern auch in den Web Analytics-Tools nachvollzogen werden. Auch in den Rohdaten befinden sich die Daten, so dass unter Umständen auch andere Effekte eines Tests nachvollzogen oder spezifische Segmente überprüft werden können.

Empfehlenswerte Tools:

Personalisierung

Viele Test-Tools sind auch gleichzeitig Personalisierungs-Tools. Einer vorher definierten Zielgruppe wird ein anderer Inhalt angezeigt als der Inhalt einer Standardseite. In der Regel wird der Erfolg einer solchen Personalisierung in diesem Tool getestet und im Falle eines Erfolges an eine größere Zielgruppe ausgespielt.

Der Begriff der Personalisierung beinhaltet verschiedene Konnotationen. So werden die Musikvorschläge von Spotify als personalisierte Vorschläge verstanden, ebenso die Angebote auf der Amazon-Homepage im eingeloggten Zustand oder höhere Preise, weil ich mit einem aktuellen iPhone auf eine Webseite komme. Wir sehen hier aber auch gleich Unterschiede:

Häufig wird aufgrund der erfolgreichen Personalisierungs-Techniken von Spotify, Google und Co davon ausgegangen, dass Personalisierung immer angewandt werden kann. Die obigen Beispiele zeigen aber, dass dies eben nicht so einfach möglich ist. da nicht jede Webseite über in dieser Hinsicht verwertbare Daten verfügt.