Schlagwort: data science

mv: argument list too long – Millionen von Dateien verarbeiten

Aufgrund meiner Vergesslichkeit hatte ein cron job mehr als 3 Millionen Dateien in einem Verzeichnis angesammelt, die ich nun verarbeiten wollte. Damit mein Skript nicht tagelang daran arbeitet (mehr 60 GB an Daten!), sollten die Dateien in kleinere Häppchen verteilt werden. Leider kam mv nicht damit klar, es beschwerte sich mit “argument list too long”. Die Abhilfe schafft eine Kombination von Kommandozeilen-Befehlen:

find ordner1/ -name ‘2017-07*’ -exec mv {} ordner2 \;

Filed under: Data ScienceTagged with: , , , , ,

Wird mein Content gelesen? Scroll-Tiefe pro Artikel als Conversion

Nicht jeder Inhalt wird nur deswegen produziert, damit die Werbung drumherum angeklickt wird 🙂 Manchen Autor interessiert sogar, ob die Nutzer das produzierte Werk auch lesen. Eine geeignete Metrik oder sogar ein geeigneter KPI ist die Scroll-Tiefe, also wie weit ein Nutzer herunter gescrollt hat. Time on Site oder Time on Page sind keine gute Metrik, da oftmals nur eine Seite angeschaut wird und Google Analytics dann gar nicht messen kann, wie viel Zeit der Nutzer auf der Seite war. Auch die Bounce Rate ist aus dem gleichen Grund keine gute Metrik, und selbst die Adjusted Bounce Rate sagt ja nur, dass die Nutzer nicht gleich wieder verschwunden sind. Natürlich kann ein Nutzer auch ganz schnell runterscrollen um zu schauen, wie lang ein Inhalt ist, aber das klammern wir jetzt mal aus. Continue reading

Filed under: Data ScienceTagged with: , ,

Woher kommen die Similar Web-Daten?

[Dies ist die Neuauflage eines älteren Artikels]

Wie bei Google Trends bin ich immer wieder überrascht, wie schnell Rückschlüsse aus Daten gezogen werden, ohne dass einmal überlegt wird, woher die Daten eigentlich kommen und wie plausibel sie sind. Vor allem bei Similar Web ist das erstaunlich, denn Google hat ja die Suchdaten und kann Trends daraus ablesen, aber woher kann eigentlich Similar Web Daten darüber haben, wie viele Besucher eine Webseite oder eine App hat? Wie zuverlässig sind diese Daten? Ist die Zuverlässigkeit ausreichend, um daraus wichtige Business-Entscheidungen zu treffen?Continue reading

Filed under: Data ScienceTagged with: , , , , ,