Kategorie: Data Science

Ein eigener Sichtbarkeitsindex mit R und AWS

In der dritten Folge über Suchmaschinenoptimierung mit R und AWS geht es um das Erstellen eines eigenen Sichtbarkeitsindex, um eine aggregierte Übersicht über das Ranking vieler Keywords zu erhalten. Im ersten Teil hatten wir uns angeschaut, wie man mit R und einer AWS Free Tier EC2-Instanz automatisiert Daten aus der Webmaster Console zieht, im zweiten Teil ging es um erste Analysen anhand von Klickraten auf Positionen.Continue reading

Filed under: Data Science, SEOTagged with: , ,

Warum die durchschnittliche Sitzungsdauer in Analytics kompletter Quatsch ist

Ich beschäftige mich seit über 20 Jahren mit Webanalyse, angefangen mit Serverlogfiles und heute mit zum Teil abgefahrenen Implementierungen von Tracking-Systemen. Die Möglichkeiten werden immer besser, aber nicht alles ist besser geworden. Denn ein Aberglaube ist einfach nicht totzukriegen, nämlich dass Time on Site oder die “durchschnittliche Sitzungsdauer” eine gute Metrik ist, beziehungsweise dass die angegebenen Werte überhaupt stimmen, Darum hier einmal schwarz auf weiß: In einer Standardimplementierung wird die Time on Site nicht richtig gemessen, egal ob in Adobe Analytics oder Google Analytics oder Piwik oder sonstwas. Continue reading

Filed under: Data ScienceTagged with: , , , ,

Kostenloses und automatisiertes SEO-Monitoring mit R und AWS

SEO-Monitoring mit R und AWSLangsam hält R Einzug in die Welt der Suchmaschinenoptimierung, und auch wenn R am Anfang etwas verwirrend sein mag (funktionale Programmierung anstatt prozedural), so kann man mit wenigen Zeilen Code coole Sachen bauen. Als Beispiel soll hier ein kostenloses SEO-Monitoring dienen, das natürlich kein bisschen mit Sistrix und Co mithalten kann, aber wenn man nur seine eigenen Rankings verfolgen will, dann ist dies eine tolle und vor allem kostenlose Lösung.Continue reading

Filed under: Data ScienceTagged with: , ,

mv: argument list too long – Millionen von Dateien verarbeiten

Aufgrund meiner Vergesslichkeit hatte ein cron job mehr als 3 Millionen Dateien in einem Verzeichnis angesammelt, die ich nun verarbeiten wollte. Damit mein Skript nicht tagelang daran arbeitet (mehr 60 GB an Daten!), sollten die Dateien in kleinere Häppchen verteilt werden. Leider kam mv nicht damit klar, es beschwerte sich mit “argument list too long”. Die Abhilfe schafft eine Kombination von Kommandozeilen-Befehlen:

find ordner1/ -name ‘2017-07*’ -exec mv {} ordner2 \;

Filed under: Data ScienceTagged with: , , , , ,

Wird mein Content gelesen? Scroll-Tiefe pro Artikel als Conversion

Nicht jeder Inhalt wird nur deswegen produziert, damit die Werbung drumherum angeklickt wird 🙂 Manchen Autor interessiert sogar, ob die Nutzer das produzierte Werk auch lesen. Eine geeignete Metrik oder sogar ein geeigneter KPI ist die Scroll-Tiefe, also wie weit ein Nutzer herunter gescrollt hat. Time on Site oder Time on Page sind keine gute Metrik, da oftmals nur eine Seite angeschaut wird und Google Analytics dann gar nicht messen kann, wie viel Zeit der Nutzer auf der Seite war. Auch die Bounce Rate ist aus dem gleichen Grund keine gute Metrik, und selbst die Adjusted Bounce Rate sagt ja nur, dass die Nutzer nicht gleich wieder verschwunden sind. Natürlich kann ein Nutzer auch ganz schnell runterscrollen um zu schauen, wie lang ein Inhalt ist, aber das klammern wir jetzt mal aus. Continue reading

Filed under: Data ScienceTagged with: , ,

Woher kommen die Similar Web-Daten?

[Dies ist die Neuauflage eines älteren Artikels]

Wie bei Google Trends bin ich immer wieder überrascht, wie schnell Rückschlüsse aus Daten gezogen werden, ohne dass einmal überlegt wird, woher die Daten eigentlich kommen und wie plausibel sie sind. Vor allem bei Similar Web ist das erstaunlich, denn Google hat ja die Suchdaten und kann Trends daraus ablesen, aber woher kann eigentlich Similar Web Daten darüber haben, wie viele Besucher eine Webseite oder eine App hat? Wie zuverlässig sind diese Daten? Ist die Zuverlässigkeit ausreichend, um daraus wichtige Business-Entscheidungen zu treffen?Continue reading

Filed under: Data ScienceTagged with: , , , , ,

Ein Jahr Erfahrung mit Scalable Capital

In diesem Monat feiert meine Anlage bei Scalable Capital ihren ersten Geburtstag; Zeit, sich die bisherige Leistung genauer anzuschauen. Über erste Erfahrungen mit Scalable Capital sowie die Situation rund um den Brexit hatte ich schon berichtet. Seitdem habe ich zwar ab und zu mal reingeschaut, aber keinen Anlass zu einer Aktion gesehen, auch wenn die Nachrichten sich seitdem fast überschlagen hatten und mit dem Schlimmsten gerechnet wurde. Aber es kam nicht so schlimm, ganz im Gegenteil, die Börsen feiern Kursgewinne ohne Ende.Continue reading

Filed under: Data ScienceTagged with: ,

Clustering mit Google Analytics und R

Manche Fragen lassen sich nicht so einfach oder auch gar nicht mit der Benutzeroberfläche von Google Analytics beantworten (das gilt übrigens auch für Adobe Analytics, Piwik, etc). Zwar bietet Google Analytics eine mächtige und einfach zu nutzende Funktionalität an, um Segmente basierend auf Geräte, Akquisitionskanäle oder Browser manuell zu bilden und miteinander zu vergleichen, aber sobald es über diese Standardsegmente hinaus oder zu Kombinationen mehrerer Dimensionen geht, wird der Aufwand komplex. Oft genug wird dann auch einfach nur in den Daten “gestochert” und gehofft, dass man etwas Wertvolles findet. Genau hier kommen die Vorteile der Kombination von Google Analytics und R ins Spiel. Eine Möglichkeit, Google Analytics und R miteinander zu verbinden ist das R Package googleAnalyticsR von Mark Edmonson, das ich in diesem Artikel beispielhaft verwenden werde.Continue reading

Filed under: Data ScienceTagged with: , , , , , , , ,