Kategorie: Data Science

Digital Analytics

Dies ist die Seite zum Kurs Digital Analytics. In diesem Kurs geht es vor allem um Web Analytics, die Themen aus dem Bereich Data Science werden nur beiläufig behandelt.

  • Die Strategie
    • Von Zielen zu KPIs
    • Von Daten zur Handlungsrelevanz
    • Möglichkeiten der Datenakquise
      • Umfragen
      • Offene Datenquellen (z.B. Google Trends)
      • Panels
      • Tracking
  • Die Umsetzung
    • Wie funktioniert Tracking?
      • Server Log Files
      • Pixels/Tagging
    • Web Analytics am Beispiel von Google Analytics
      • Einrichtung
      • Echtzeit
    • Tag Management
  • Das Reporting
      • Interpretation von Daten
      • Statistik I
      • Visualisierung von Daten
  • Das Testen
    • Hypothesenbildung
    • Umsetzung in Google Optimize
    • Statistik II
Filed under: Data ScienceTagged with: , ,

The Holy Trinity of Data

The final important concept is the trinity of data, information, and action. Often, data is only reported because it is available but not because it is needed. Worse, it is a challenge to derive the right information from the data. And even if information has been derived, what have we learned that we can put into action? If there is no action behind a data point, the data is not needed.

Filed under: Data Science

The typical phases of a data science project

There are five phases in Data Science and data analysis:

  • Understanding the business problem: This is one of the most neglected steps in data science and analytics although it is the most important one. You need to understand the business problem, and you need to gain a complete understanding of the problem. The main question is, what exactly is the business problem that you are asked to solve or that you want to solve.
  • Data Acquisition/Preparation Phase: Acquiring and checking the data
  • Analysis Phase: Building models
  • Testing/Reflection Phase: Reviewing results and looking at alternative models
  • Deployment/Dissemination Phase: Reporting results

Whilst it may sound that these steps follow one after another, it is more likely that it is an iterative process.

Filed under: Data Science

What is Data Science?

There is no official definition of Data Science (similar to “Big Data”); we will regard data science as the combination of different disciplines: data mining, statistics and machine learning in order to derive information from data automatically. Whilst many of the approaches used in these fields have existed for a long time already, more and more free programming libraries, cheap computing time and storage space (e.g. from AWS) as well as more available data due to the new online world have been enabling more people to use the power of coping with huge amounts or complex data.

Data Analytics or Data Analysis can be regarded as a subset of Data Science, setting the focus on the analysis of data. Being very similar to statistics, the term “data analysis” is sometimes regarded as old wine in new bottles. The existence of huge and complex data, often termed as “big data”, is not required for data analysis. Most often, quality is more restricting than quantity. In fact, there is no official definition of “big data”, and just because it is “a lot of data”, it should still not be called “Big” data. Some people even say, there is no thing such as big data.

Web Analytics is a subset of data analysis, however, using also other data that do not come from a website alone. Often enough, other marketing data is connected, requiring additional knowledge about the increasing complexity of marketing technology. Without such expertise, the analysis and interpretation of such data is difficult if not impossible. And while the focus here has been on data mining and some basic statistics, we see more and more machine learning entering this space.

Filed under: Data Science

Literature

Filed under: Data ScienceTagged with:

R-Funktion des Tages: rep.int

Problem: Ich bekomme von dem System eine aggregierte Liste der Nutzer, die in ein Bucket fallen, zum Beispiel wie viele Nutzer pro Anzahl Sekunden auf einer Seite waren:

seconds,users
0,”201,107″
1,”299,574″
2,”439,234″
3,”615,117″
4,”837,688″
5,”1,003,248″
6,”1,056,207″
7,”1,025,102″
8,”949,128″
9,”857,241″
10,”764,080″
11,”677,163″
12,”600,691″
13,”534,670″

Jetzt möchte ich die üblichen Werte wissen wie mean, median etc. Dumm nur, dass mir die einzelnen Werte nicht zur Verfügung stehen, sondern eben nur pro Kategorie wie 1 Sekunde, 2 Sekunden, 3 Sekunden und so weiter. Ich könnte jetzt zwar noch den Mean ausrechnen (indem ich zB eine dritte Spalte erstelle und in dieser das Produkt aus seconds und users berechne und dann summiere und durch die Summe der Spalte users teile, aber den Median bekomme ich trotzdem so nicht raus.

Lösung: rep.int. Diese Funktion wiederholt einen Wert in einer Spalte genau so oft wie in einer anderen Spalte angegeben, in diesem Beispiel mit

with(df, summary(rep.int(df$seconds,df$users)) )

 

Filed under: Data ScienceTagged with: ,

Wird mein Content gelesen? Sichtbarkeit von Elementen messen!

Im September 2017 hatte ich noch darüber geschrieben, dass die Scrolltiefe ein besserer Indikator dafür wäre, ob ein Inhalt gelesen wurde als die reine Sitzungsdauer, die eh Quatsch ist. Einen Monat später veröffentlichte Google dann eine neue Funktion im Google Tag Manager, einen Trigger für die Sichtbarkeit von Elementen (in der deutschen Version der Release Notes fehlte der Hinweis). Damit lassen sich einige Nachteile des Scrolltiefen-Ansatzes kompensieren, vor allem die Einschränkung, dass nicht jede Seite gleich lang ist und “75% gelesen” nicht immer bedeuten muss, dass der Inhalt auch bis zum Ende gelesen wurde (75% wurde deswegen gewählt, weil viele Seiten einen immensen Footer haben und die Nutzer daher nicht zu 100% runterscrollen). Eine Seite bei mir hat so viele Kommentare, dass sie mehr als die Hälfte des Inhalts ausmachen.Continue reading

Filed under: Data ScienceTagged with: , , , , ,

SEO-Monitoring mit R, AWS und Shiny

Shiny App SEO Reporting

Dies ist der vorläufig letzte Teil der Serie über SEO mit R und AWS. Im ersten Teil hatten wir die AWS-Instanz mit RStudio vorbereitet, im zweiten Teil eine kleine SEO-Analyse durchgeführt, im dritten Teil ging es um die Erstellung eines Sichtbarkeitsindexes und eines “actionable Reportings”. In diesem Teil geht es darum, dass es selbst dem hartgesottensten Data Scientist zu anstrengend ist, die einzelnen Skripte täglich durch RStudio laufen zu lassen. Das SEO Monitoring soll also über eine ansprechende Oberfläche laufen.Continue reading

Filed under: Data Science, SEOTagged with: , , ,