Schlagwort: data science

Literature

Filed under: Data ScienceTagged with:

R-Funktion des Tages: rep.int

Problem: Ich bekomme von dem System eine aggregierte Liste der Nutzer, die in ein Bucket fallen, zum Beispiel wie viele Nutzer pro Anzahl Sekunden auf einer Seite waren:

seconds,users
0,”201,107″
1,”299,574″
2,”439,234″
3,”615,117″
4,”837,688″
5,”1,003,248″
6,”1,056,207″
7,”1,025,102″
8,”949,128″
9,”857,241″
10,”764,080″
11,”677,163″
12,”600,691″
13,”534,670″

Jetzt möchte ich die üblichen Werte wissen wie mean, median etc. Dumm nur, dass mir die einzelnen Werte nicht zur Verfügung stehen, sondern eben nur pro Kategorie wie 1 Sekunde, 2 Sekunden, 3 Sekunden und so weiter. Ich könnte jetzt zwar noch den Mean ausrechnen (indem ich zB eine dritte Spalte erstelle und in dieser das Produkt aus seconds und users berechne und dann summiere und durch die Summe der Spalte users teile, aber den Median bekomme ich trotzdem so nicht raus.

Lösung: rep.int. Diese Funktion wiederholt einen Wert in einer Spalte genau so oft wie in einer anderen Spalte angegeben, in diesem Beispiel mit

with(df, summary(rep.int(df$seconds,df$users)) )

 

Filed under: Data ScienceTagged with: ,

SEO-Monitoring mit R, AWS und Shiny

Shiny App SEO Reporting

Dies ist der vorläufig letzte Teil der Serie über SEO mit R und AWS. Im ersten Teil hatten wir die AWS-Instanz mit RStudio vorbereitet, im zweiten Teil eine kleine SEO-Analyse durchgeführt, im dritten Teil ging es um die Erstellung eines Sichtbarkeitsindexes und eines “actionable Reportings”. In diesem Teil geht es darum, dass es selbst dem hartgesottensten Data Scientist zu anstrengend ist, die einzelnen Skripte täglich durch RStudio laufen zu lassen. Das SEO Monitoring soll also über eine ansprechende Oberfläche laufen.Continue reading

Filed under: Data Science, SEOTagged with: , , ,

mv: argument list too long – Millionen von Dateien verarbeiten

Aufgrund meiner Vergesslichkeit hatte ein cron job mehr als 3 Millionen Dateien in einem Verzeichnis angesammelt, die ich nun verarbeiten wollte. Damit mein Skript nicht tagelang daran arbeitet (mehr 60 GB an Daten!), sollten die Dateien in kleinere Häppchen verteilt werden. Leider kam mv nicht damit klar, es beschwerte sich mit “argument list too long”. Die Abhilfe schafft eine Kombination von Kommandozeilen-Befehlen:

find ordner1/ -name ‘2017-07*’ -exec mv {} ordner2 \;

Filed under: Data ScienceTagged with: , , , , ,

Wird mein Content gelesen? Scroll-Tiefe pro Artikel als Conversion

Nicht jeder Inhalt wird nur deswegen produziert, damit die Werbung drumherum angeklickt wird 🙂 Manchen Autor interessiert sogar, ob die Nutzer das produzierte Werk auch lesen. Eine geeignete Metrik oder sogar ein geeigneter KPI ist die Scroll-Tiefe, also wie weit ein Nutzer herunter gescrollt hat. Time on Site oder Time on Page sind keine gute Metrik, da oftmals nur eine Seite angeschaut wird und Google Analytics dann gar nicht messen kann, wie viel Zeit der Nutzer auf der Seite war. Auch die Bounce Rate ist aus dem gleichen Grund keine gute Metrik, und selbst die Adjusted Bounce Rate sagt ja nur, dass die Nutzer nicht gleich wieder verschwunden sind. Natürlich kann ein Nutzer auch ganz schnell runterscrollen um zu schauen, wie lang ein Inhalt ist, aber das klammern wir jetzt mal aus. Continue reading

Filed under: Data ScienceTagged with: , ,

Woher kommen die Similar Web-Daten?

[Dies ist die Neuauflage eines älteren Artikels]

Wie bei Google Trends bin ich immer wieder überrascht, wie schnell Rückschlüsse aus Daten gezogen werden, ohne dass einmal überlegt wird, woher die Daten eigentlich kommen und wie plausibel sie sind. Vor allem bei Similar Web ist das erstaunlich, denn Google hat ja die Suchdaten und kann Trends daraus ablesen, aber woher kann eigentlich Similar Web Daten darüber haben, wie viele Besucher eine Webseite oder eine App hat? Wie zuverlässig sind diese Daten? Ist die Zuverlässigkeit ausreichend, um daraus wichtige Business-Entscheidungen zu treffen?Continue reading

Filed under: Data ScienceTagged with: , , , , ,

Data Science Resources

 

Filed under: Data ScienceTagged with: , ,

Data Science & Analytics – Course Material

This is the English version of the Data Science script. Work in Progress!

This is a growing collection of data science, data analysis and web analytics information and resources for my course at the HAW. Some parts of the script will be published here.

Course Description Data Science & Analytics

Data analytics and, as a subset, web analytics have become existential parts in the development and optimization of websites and apps, but also in product development, research and business strategy. The digital transformation of industries will result in more and more data to be produced and in a higher demand for people who are able to translate business problems into data and back to business solutions.

The course will introduce into the basics of data analysis and statistics based on real-life projects which will require students to invest additional time between the course dates. The course will also prepare for the certification of the Digital Analytics Association.

Important Information

  • You will need to use R or RStudio respectively; please have a look at the tools section about R
  • If you have trouble installing R, I can provide access to a RStudio server
  • In order to pass the course, you will need to pass tests on EMIL. You will pass all tests by attending or reading this script. Attending has the advantage that you will practice the stuff.
  • Please be on time
  • Please don’t talk when I am talking; you cannot listen when you are talking, and it is also bad for my voice
  • Please leave your mobile in your pockets and don’t chat; I do notice, also if you use Whatsapp on your computer etc. We are going to deal with complex stuff, so you will need to focus.
  • Please don’t copy stuff from Wikipedia etc. If you do, you will not pass.

Course Curriculum

Other Resources

Filed under: Data ScienceTagged with: , ,