Kategorie: Data Science

Kostenloses und automatisiertes SEO-Monitoring mit R und AWS

SEO-Monitoring mit R und AWSLangsam hält R Einzug in die Welt der Suchmaschinenoptimierung, und auch wenn R am Anfang etwas verwirrend sein mag (funktionale Programmierung anstatt prozedural), so kann man mit wenigen Zeilen Code coole Sachen bauen. Als Beispiel soll hier ein kostenloses SEO-Monitoring dienen, das natürlich kein bisschen mit Sistrix und Co mithalten kann, aber wenn man nur seine eigenen Rankings verfolgen will, dann ist dies eine tolle und vor allem kostenlose Lösung.Continue reading

Filed under: Data ScienceTagged with: , ,

mv: argument list too long – Millionen von Dateien verarbeiten

Aufgrund meiner Vergesslichkeit hatte ein cron job mehr als 3 Millionen Dateien in einem Verzeichnis angesammelt, die ich nun verarbeiten wollte. Damit mein Skript nicht tagelang daran arbeitet (mehr 60 GB an Daten!), sollten die Dateien in kleinere Häppchen verteilt werden. Leider kam mv nicht damit klar, es beschwerte sich mit “argument list too long”. Die Abhilfe schafft eine Kombination von Kommandozeilen-Befehlen:

find ordner1/ -name ‘2017-07*’ -exec mv {} ordner2 \;

Filed under: Data ScienceTagged with: , , , , ,

Wird mein Content gelesen? Scroll-Tiefe pro Artikel als Conversion

Nicht jeder Inhalt wird nur deswegen produziert, damit die Werbung drumherum angeklickt wird 🙂 Manchen Autor interessiert sogar, ob die Nutzer das produzierte Werk auch lesen. Eine geeignete Metrik oder sogar ein geeigneter KPI ist die Scroll-Tiefe, also wie weit ein Nutzer herunter gescrollt hat. Time on Site oder Time on Page sind keine gute Metrik, da oftmals nur eine Seite angeschaut wird und Google Analytics dann gar nicht messen kann, wie viel Zeit der Nutzer auf der Seite war. Auch die Bounce Rate ist aus dem gleichen Grund keine gute Metrik, und selbst die Adjusted Bounce Rate sagt ja nur, dass die Nutzer nicht gleich wieder verschwunden sind. Natürlich kann ein Nutzer auch ganz schnell runterscrollen um zu schauen, wie lang ein Inhalt ist, aber das klammern wir jetzt mal aus. Continue reading

Filed under: Data ScienceTagged with: , ,

Woher kommen die Similar Web-Daten?

[Dies ist die Neuauflage eines älteren Artikels]

Wie bei Google Trends bin ich immer wieder überrascht, wie schnell Rückschlüsse aus Daten gezogen werden, ohne dass einmal überlegt wird, woher die Daten eigentlich kommen und wie plausibel sie sind. Vor allem bei Similar Web ist das erstaunlich, denn Google hat ja die Suchdaten und kann Trends daraus ablesen, aber woher kann eigentlich Similar Web Daten darüber haben, wie viele Besucher eine Webseite oder eine App hat? Wie zuverlässig sind diese Daten? Ist die Zuverlässigkeit ausreichend, um daraus wichtige Business-Entscheidungen zu treffen?Continue reading

Filed under: Data ScienceTagged with: , , , , ,

Ein Jahr Erfahrung mit Scalable Capital

In diesem Monat feiert meine Anlage bei Scalable Capital ihren ersten Geburtstag; Zeit, sich die bisherige Leistung genauer anzuschauen. Über erste Erfahrungen mit Scalable Capital sowie die Situation rund um den Brexit hatte ich schon berichtet. Seitdem habe ich zwar ab und zu mal reingeschaut, aber keinen Anlass zu einer Aktion gesehen, auch wenn die Nachrichten sich seitdem fast überschlagen hatten und mit dem Schlimmsten gerechnet wurde. Aber es kam nicht so schlimm, ganz im Gegenteil, die Börsen feiern Kursgewinne ohne Ende.Continue reading

Filed under: Data ScienceTagged with: ,

Clustering mit Google Analytics und R

Manche Fragen lassen sich nicht so einfach oder auch gar nicht mit der Benutzeroberfläche von Google Analytics beantworten (das gilt übrigens auch für Adobe Analytics, Piwik, etc). Zwar bietet Google Analytics eine mächtige und einfach zu nutzende Funktionalität an, um Segmente basierend auf Geräte, Akquisitionskanäle oder Browser manuell zu bilden und miteinander zu vergleichen, aber sobald es über diese Standardsegmente hinaus oder zu Kombinationen mehrerer Dimensionen geht, wird der Aufwand komplex. Oft genug wird dann auch einfach nur in den Daten “gestochert” und gehofft, dass man etwas Wertvolles findet. Genau hier kommen die Vorteile der Kombination von Google Analytics und R ins Spiel. Eine Möglichkeit, Google Analytics und R miteinander zu verbinden ist das R Package googleAnalyticsR von Mark Edmonson, das ich in diesem Artikel beispielhaft verwenden werde.Continue reading

Filed under: Data ScienceTagged with: , , , , , , , ,

Das optimale Tracking-Konzept oder Der Segeltörn ohne Ziel

Wie oft habe ich beim Thema Tracking-Konzept schon den Satz gehört “Lass uns einfach alles tracken, wir können uns doch später Gedanken machen, was wir eigentlich brauchen. Aber das Tracking-Konzept kann natürlich schon geschrieben werden!”

In Seenot ohne Tracking-Konzept
Fischerboot in Seenot von Andreas Achenbach

Stellen wir uns einmal vor, wir wollen mit einem Segelboot einen Törn unternehmen und wir sagten “Keine Ahnung wo wir hin wollen, lass uns doch einfach alles mitnehmen, was wir für alle Eventualitäten benötigen könnten”. Unser Boot würde sinken bevor der Törn begonnen hat. Wir wüssten nicht, ob wir Wasser und Konserven für einen Tag oder mehrere Wochen mitnehmen müssten, ob wir Winterkleidung oder Sommerkleidung benötigen und so weiter. Aber um auf Nummer Sicher zu gehen, kaufen wir einfach den ganzen Segelbedarfsladen leer, irgendwas davon werden wir schon brauchen. Und haben nun mehr, als das Schiff an Last ertragen kann.Continue reading

Filed under: Data ScienceTagged with: ,

Tag Management Systems

Adding tracking pixels requires the involvement of the development and the IT department, and if there is only one simple error, the next push to production may take weeks. Also, the more pixels are included, the more complex the management of these pixels becomes, especially when a specific logic is required for the sequence of tags being fired. Worse, in some cases, tag firing depends on conditions in some cases.

Tag Management Systems solve all these problems by providing a container that is included once only.

Filed under: Data Science

Log Ins

Log Ins obviously are the best way to acquire clean data, given that the user authentificates herself so that we can be absolutely sure that this is the same user. What is more, logins also work across different devices. A good example is Facebook where users access their account via apps, web pages etc.

Filed under: Data Science