Kategorie: Data Science

Google Trends

Google Trends is one of the most understood tools in the online marketing world. Most users seem to think that they just have to enter two terms and then see which of the both terms is more popular in terms of search volume. In fact, this is not the case. Google Trends displays the search interest as a measure of search volume relative to all searches on a particular day. As a result, a curve that goes down may not mean that there were less searches, there could have been even more from one day to another. But if the overall search volume has risen faster, then the search interest for that particular term has decreased while it’s volume has increased.

In addition, data is indexed. This means that data is always interpreted from the highest point in the set, resulting in search interest curves crossing while search volume curves would not.

One result of Google Trends was Google Flu Trends, a product that identified a correlation between searches for flu-related terms and actual flu penetration. However, as it turned out later, flu predictions proved to be inaccurate.

Filed under: Data ScienceTagged with:

Analyzing Data in Google Analytics

Google offers access to the Analytics account of the Google Merchandising Store; go to this help page and click on the access link (a Google account is required; in the future, you can access the store account directly via the Google Analytics interface).

The Google Analytics interface provides 5 sections:

  • Realtime: While users love to see what happens on their website right now, there is no actionable insight to be derived from here unless webmasters need to debug events or other implementation details. The main question that can be answered here is “Does my tracking work?”
  • Audience: “Who are my users?” – Information about the users, their interests, the technology used; there is also a new feature that lets analysts explore the behavior of single users. This data cannot be connected to other reports from scratch although it is possible to hack this.
  • Acquisition: “Where do my users come from?” – Details about where users came from, including the conversions; this, however, is a last interaction view.
  • Behavior: “What do they do on my site?” – Interaction with the website’s content, website speed, site search, and events
  • Conversions: “What was their path to conversion?” – Conversions from defined conversions goals or ecommerce; this section also offers an attribution module that allows to view alternative touchpoint views to the last interaction.

Reports are displayed in dimensions, e.g. sessions; in most of the reports, it is possible to add a second dimension.

Filed under: Data Science

Samples/Stichproben

Das Ziehen von Stichproben ist keine triviale Angelegenheit. So kann man für eine Umfrage nicht einfach mittags in die Einkaufsstraße gehen und Menschen befragen und anhand der Ergebnisse auf die Gesamtpopulation rückschließen. Denn nicht jede Person hatte die gleiche Chance zufällig in diese Befragung zu kommen. Und da das Befragen der Gesamtpopulation oft schwierig oder sogar unmöglich ist (alle Bundesbürger, alle Rothaarigen, alle Nutzer mit einem iPhone), müssen wir auf eine Stichprobe zurückgreifen und können nur alles versuchen, dass die Stichprobe die zu untersuchenden Eigenschaften hat, die auch die Gesamtpopulation hat. Aber häufig wissen wir es nicht genau. Und hier beginnt die Statistik.

Wir haben im vorherigen Abschnitt gelernt, dass rund 95% aller Werte innerhalb von 2 Standardabweichungen plus/minus des Mittelwerts liegen. Wenn wir eine Stichprobe nehmen, dann liegt die Wahrscheinlichkeit, dass der Mittelwert dieses Samples im Bereich von plus/minus zwei Standardabweichungen des Mittelwerts liegt also bei 95%. Mit anderen Worten, eine von 20 Stichproben wird ihren Mittelwert wahrscheinlich nicht innerhalb dieser 95% haben. Und schon sind wir beim Konfidenzniveau. Ein Konfidenzniveau von 95% ist ein häufiger Wert in der Statistik, ebenso sind 90% und 99% verwendete Werte.

Offensichtlich reicht uns ein Konfidenzniveau nicht aus. Angenommen wir wollen eine Stichprobe nehmen und das Konfidenzniveau von 95% verwenden, dann müssen wir an einer anderen Schraube drehen, und das ist entweder die Sample-Größe oder das Konfidenzintervall, also wie fehlertolerant wir sind, oder beides. Die Sample-Größe hängt natürlich auch von der Größe der Gesamtpopulation ab. Aber eines nach dem anderen.

Betrachten wir das Werfen eines Würfels. Es ist sehr unwahrscheinlich, dass wir, wenn wir einen Würfel 10x werfen, auch 10x die 6 bekommen. Aber es könnte passieren. Es ist nicht wahrscheinlich, aber es ist auch nicht komplett unwahrscheinlich. Je häufiger wir aber würfeln, desto weniger wahrscheinlich ist es aber, dass wir nur 6 würfeln (vorausgesetzt, dass der Würfel nicht gezinkt ist). Mit anderen Worten: Je größer unsere Stichprobe ist, desto wahrscheinlicher ist es, dass der Mittelwert der Stichprobe im Bereich von ca. 2 Standardabweichungen ist (rund 95% aller Werte). Können wir unser Sample aber nicht größer machen, so müssen wir damit leben, dass der Mittelwert unseres Samples weiter entfernt ist von dem Mittelwert unserer Population, zumindest wenn wir bei dem gleichen Konfidenzniveau bleiben wollen.

Noch präziser: Stellen wir uns vor wir würden mehrere Stichproben nehmen, und zwar würfeln wir 10x 20x und schreiben die Ergebnisse auf. Wir berechnen den Mittelwert der Würfe in einer Stichprobe und können dadurch die Abweichung dieser Mittelwerte bestimmen. Diese Abweichung wird der Standardfehler genannt.

Filed under: Data Science

Standardabweichung

Oft interessiert nicht nur ein Mittelwert, sondern auch die Streuung um diesen Mittelwert, also wie weit Werte von dem Mittelwert entfernt sind. Was wäre zum Beispiel eine durchschnittliche Abweichung von diesem Mittelwert? Man könnte ja theoretisch alle Abweichungen summieren und dann durch die Anzahl der Abweichungen dividieren. Allerdings würde das in der Regel nicht funktionieren, weil manche Abweichungen oberhalb und andere Abweichungen unterhalb des Mittelwerts liegen, und Letztere hätten einen negativen Wert. Summierte man diese Werte nun, so würden die negativen Werte die positiven Abweichungen vermindern, und es käme kein Durchschnitt heraus. Noch mal am Beispiel unseres Kurses:

22
26
27
21
22
22
20
20
25
21
21
21
25
46

Der Mittelwert ist 24,21, so dass der erste Wert in der Liste eine Abweichung von -2,21 hat, der zweite eine Abweichung von 1,79, der dritte eine Abweichung von 2,79 usw. Wir haben negative und positive Abweichungen. Die Summe der Abweichungen wäre auf jeden Fall keine Summe der positiven Zahlen, sondern wäre minimiert durch die Abweichungen, die im negativen Bereich sind. Daraus entsteht kein Durchschnitt.

Dieses Problem wird mit einem kleinen Trick umgangen. So werden einfach erstmal alle Abweichungen quadriert, so dass negative Vorzeichen entfallen, und dann werden sie durch die Anzahl der Werte geteilt. Aus dem ersten Wert -2,21 wird also 4,8841 usw. Schade nur, dass dann die ursprüngliche Maßeinheit (Länge, Gewicht, Minuten) verloren geht, aber zumindest haben wir einen neuen Wert, die Varianz. Die Varianz ist die quadrierte Abweichung. Ziehen wir nun die Wurzel aus der Varianz, so sind wir wieder bei der ursprünglichen Maßeinheit und haben die Standardabweichung. Das klingt leicht seltsam (“Die Standardabweichung ist die Wurzel aus der quadrierten Abweichung geteilt durch die Anzahl der Elemente”), aber es geht nur darum, das negative Vorzeichen loszuwerden. Die Formel dazu sieht so aus:

Standardabweichung

Neben dieser Formel existiert eine zweite Formel, und zwar:

Standardabweichung der Stichprobe

Der Unterschied besteht darin, dass von der Anzahl der Elemente der Wert 1 abgezogen wird. Man bezeichnet diese zweite Standardabweichung auch als Standardabweichung der Stichprobe, d.h. sie wird auf Stichproben angewendet, wohingegen die erste Formel die Standardabweichung der Gesamtpopulation ist.

Aber warum ist eine Standardabweichung nun interessant? Je höher die Standardabweichung ist, desto breiter ist die Streuung, desto mehr Werte sind weiter von dem Mittelwert entfernt. Mit nur zwei Zahlen, dem Mittelwert und der Standardabweichung weiß ich nun schon ungefähr, wie breit die Glocke in einer Normalverteilung ist. Aber wir wissen noch mehr. Denn rund 68% aller Werte liegen im Bereich von plus/minus einer Standardabweichung, rund 95% aller Werte liegen im Bereich von plus/minus zwei Standardabweichungen. Wenn ich also einen Wert sehe (z.B. wie lange ein Nutzer benötigte, um eine Seite zu lesen, so kann ich einordnen, inwieweit dieser Nutzer zur Mehrheit gehört oder nicht. Aber wir können damit noch mehr anfangen, wie wir im nächsten Abschnitt sehen werden.

Filed under: Data ScienceTagged with:

Mittelwert, Median und Modus

When talking about an average, most people refer to the mean which is officially called the arithmetic mean. It is built by summing up all values of a population and dividing this sum by the number of elements. Unfortunately, the mean can easily be skewed by outliers in the data. Let’s look at the following list of ages of people in a course (obviously, the oldest person is the teacher):

22
26
27
21
22
22
20
20
25
21
21
21
25
46

The mean here is 24,21 years. Without the teacher, the mean would be 22.54. This single outlier skews the data.

Another perspective on the average is the median, the middle value of a list sorted by their values. The advantage of the median is that it is less influenced by outliers. In our example, the sorted list looks like this:

20
20
21
21
21
21
22
22
22
25
25
26
27
46

Since we have 14 elements in the list, there is no element in the middle, so we have to take the two values that are in the middle and divide them by 2, in this case (22+22)/2=22. The median of 22 is closer to the mean of the ages without the teacher as the median is less vulnerable to outliers.

Finally, we have the mode (there are also other averages in statistics, but we will not cover these). The mode is the most frequent value in a list. It is always a good idea to plot data, especially when distributions of data are examined. In this case, we create a histogram:

Histogram Age Distribution

21 years is the most frequent number in the data, it is the mode of this data set. Also, the mode works with categorial data. If you have 13 students, 6 from Germany and 7 from France, you have two groups. You cannot ask “what is the arithmetic mean of countries of origin?” but the mode works just fine with such data.

Without any visualisation, mean, median and mode already reveal a lot about our data set. We know that there are outliers in our dataset that skew the numbers. In general, the mean alone may not be a good statistic to examine data although it is widely used.

Filed under: Data ScienceTagged with: , , ,

Statistik I

Der Kurs kann kein Statistik-Seminar ersetzen, es werden nur elementare Grundlagen vermittelt. Es wird so weit wie möglich auf mathematische Formeln verzichtet. Für ein tieferes Studium der Statistik wird das Lehrbuch Statistik: Der Weg zur Datenanalyse (Affiliate-Link) empfohlen.

Es werden drei Teilbereiche der Statistik unterschieden:

  • Deskriptive Statistik: Data is described, validated, visualized and compressed. Averages and Distribution are part of descriptive statistics.
  • Explorative Statistik: Patterns and structures in the data are searched so that new questions and hypothesis can be generated.
  • Inferentielle Statistik: Drawing conclusions from data based on models.

In der Statistik und in der Datenanalyse wird ein fachspezifisches Vokabular verwendet, das nicht unbedingt mit dem Vokabular der Webanalyse kompatibel ist. Fahrmeir et al unterscheiden die folgenden elementaren Begriffe (weitere Begriffe werden während des Kurses eingeführt):

  • Statistische Einheiten: Dies sind die Objekte, an denen Merkmale erfasst werden.
  • Grundgesamtheit: Auch (Gesamt-)Population genannt. Menge aller Einheiten, die statistisch relevant sind für eine bestimmte Fragestellung
  • Teilgesamtheit oder Teilpopulation: Teilmenge einer Grundgesamtheit
  • Stichprobe: Oft auch Sample genannt. Die tatsächlich untersuchte Teilmenge einer Grundgesamtheit
  • Merkmal oder Variable:: Die interessierende Größe einer statistischen Einheit
  • Merkmalsausprägung: Der Wert eines Merkmals der statistischen Einheit

Diese Begriffe sollen an einem Beispiel erläutert werden, und zwar am berühmten Beispiel der Sonntagsfrage. Hier interessieren verschiedene Merkmale der Wähler, die die statistischen Einheiten bilden. Alle Wahlberechtigten sind die Grundgesamtheit. Würde man nur die weiblichen Wahlberechtigten befragen, so hätte man eine Teilgesamtheit. Da nicht alle Wahlberechtigten gefragt werden können (und auch die Teilpopulation der Frauen nicht befragbar ist) für eine Sonntagsfrage, wird eine Stichprobe genutzt. Bei dieser Stichprobe interessiert primär das Merkmal Parteipräferenz, welches die Ausprägungen CDU, Grüne, Linke, SPD, etc haben kann. Eventuell werden aber auch noch weitere Merkmale abgefragt, wie zum Beispiel Alter, Geschlecht, Verdienst, Region.

Filed under: Data Science

Warum die Web Analyse (wie wir sie heute kennen) aussterben wird

Das Zeitalter der sinnvollen Webanalyse hat gerade erst begonnen. Mehr und mehr Unternehmen verstehen, dass PageViews kein geeigneter KPI sind, um den Erfolg der Content-Investments zu überprüfen. Und dennoch naht das Ende dessen, was wir gerade liebgewinnen, bevor es zu schön werden kann. Continue reading

Filed under: Data ScienceTagged with: , , ,

Sistrix Traffic versus Google AdWords Keyword Planner

Wer hier öfter mitliest, der weiß, dass Sistrix eines meiner absoluten Lieblings-Tools ist (ich verlinke mal ganz dreist als bestes SEO Tool), allein schon wegen der schlanken API, dem absolut liebenswürdigen Johannes mit seinen wirklich schlauen Blog-Posts sowie der Unaufgeregtheit, mit der die Toolbox immer wieder überzeugt. Natürlich sind auch alle anderen Tools klasse, aber Sistrix ist sowas wie meine erste große Tool-Liebe, die man nicht aus seinem SEO-Gedächtnis verbannen kann oder will. Und auch wenn die folgenden Daten eventuell am Lack kratzen könnten, eine richtige Delle haben sie in meiner Sistrix-Präferenz nicht verursacht. Continue reading

Filed under: Data Science, SEOTagged with: , , , ,

Wie genau sind die Daten von keywordtool.io?

Nachdem der Google AdWords Keyword Planner nur noch für Konten mit ausreichend Budget granulare Daten ausspuckt, ist die Suche nach Alternativen groß. Rand Fishkin glaubt, dass Google Trends die Rettung sei, hat aber anscheinend nicht verstanden, dass Google Trends normalisierte, indexierte sowie Keyword-erweiterte Daten und keine absolute Zahlen liefert. In einem Punkt aber hat er Recht, auch der Keyword Planner liefert nicht wirklich genaue Daten, wie ich in diesem Artikel festgestellt hatte.Continue reading

Filed under: Data Science