Schlagwort: R

Wird mein Content gelesen? Scroll-Tiefe pro Artikel als Conversion

Nicht jeder Inhalt wird nur deswegen produziert, damit die Werbung drumherum angeklickt wird 🙂 Manchen Autor interessiert sogar, ob die Nutzer das produzierte Werk auch lesen. Eine geeignete Metrik oder sogar ein geeigneter KPI ist die Scroll-Tiefe, also wie weit ein Nutzer herunter gescrollt hat. Time on Site oder Time on Page sind keine gute Metrik, da oftmals nur eine Seite angeschaut wird und Google Analytics dann gar nicht messen kann, wie viel Zeit der Nutzer auf der Seite war. Auch die Bounce Rate ist aus dem gleichen Grund keine gute Metrik, und selbst die Adjusted Bounce Rate sagt ja nur, dass die Nutzer nicht gleich wieder verschwunden sind. Natürlich kann ein Nutzer auch ganz schnell runterscrollen um zu schauen, wie lang ein Inhalt ist, aber das klammern wir jetzt mal aus. Continue reading

Filed under: Data ScienceTagged with: , ,

Clustering mit Google Analytics und R

Manche Fragen lassen sich nicht so einfach oder auch gar nicht mit der Benutzeroberfläche von Google Analytics beantworten (das gilt übrigens auch für Adobe Analytics, Piwik, etc). Zwar bietet Google Analytics eine mächtige und einfach zu nutzende Funktionalität an, um Segmente basierend auf Geräte, Akquisitionskanäle oder Browser manuell zu bilden und miteinander zu vergleichen, aber sobald es über diese Standardsegmente hinaus oder zu Kombinationen mehrerer Dimensionen geht, wird der Aufwand komplex. Oft genug wird dann auch einfach nur in den Daten “gestochert” und gehofft, dass man etwas Wertvolles findet. Genau hier kommen die Vorteile der Kombination von Google Analytics und R ins Spiel. Eine Möglichkeit, Google Analytics und R miteinander zu verbinden ist das R Package googleAnalyticsR von Mark Edmonson, das ich in diesem Artikel beispielhaft verwenden werde.Continue reading

Filed under: Data ScienceTagged with: , , , , , , , ,

Regression: Was darf eine gebrauchte Spiegelreflexkamera kosten?

Da gerade die Canon 5d Mark IV herausgekommen ist, wird auch die 5d Mark III erschwinglich. 1.500€ für maximal 30.000 Auslösungen wurde mir geraten, aber wenn man sich die angebotenen Kameras bei eBay und den einschlägigen Foren ansieht, dann scheint der Preis viel höher zu sein. Doch was ist der faire Preis? Mit ausreichend Daten kann dieser durch Regression ermittelt werden. Continue reading

Filed under: Data ScienceTagged with: , , ,

Google-Analytics-Daten in R einlesen

Manchmal kann man nicht mit Packages wie googleAnalyticsR arbeiten oder bekommt die Daten anders zur Verfügung gestellt 🙁 Datenformat aus Analytics exportiert sieht so aus:

11.01.13,"1,79"
12.01.13,"1,81"
13.01.13,"1,86"
14.01.13,"1,83"
15.01.13,"1,79"

R kann nichts mit dem Datumsformat anfangen, da R gerne das POSIX-Datumsformat hätte (Jahr-Monat-Tag).

> analytics <- read.table(file="analytics.csv", sep=",", dec=",", quote = "\"")
> analytics$V1 <- strptime(analytics$V1,format="%d.%m.%y")
> summary(analytics)
V1 V2
Min. :2013-01-11 00:00:00 Min. :1.000
1st Qu.:2013-12-19 06:00:00 1st Qu.:1.550
Median :2014-11-26 12:00:00 Median :1.630
Mean :2014-11-26 11:23:44 Mean :1.632
3rd Qu.:2015-11-03 18:00:00 3rd Qu.:1.710
Max. :2016-10-11 00:00:00 Max. :2.520
>

In letzter Zeit habe ich mir angewöhnt, read.table anstatt read.csv oder read.csv2 zu nutzen, denn ich kann mir den Unterschied zwischen den beiden eh nicht merken und welche Parameter darin true sind oder nicht, und sie sind nur vorformatierte Variationen von read.table.

So kann es passieren, dass man unhübsche Daten bekommt, an denen summary() kapituliert:

V1 V2
65.65796: 3 124.7975: 4
67.34629: 3 121.1097: 3
67.94061: 3 123.5503: 3
67.97769: 3 124.0167: 3
68.30287: 3 126.2769: 3
68.93456: 3 126.7902: 3
(Other) :21062 (Other) :21061

In diesem Fall liegt es einfach daran, dass der Header nicht mit eingelesen wurde. Ganz anders mit der Angabe:

> size
[/code]
[code]
> summary(size)
Height Weight
Min. :60.28 Min. : 78.57
1st Qu.:66.70 1st Qu.:119.31
Median :67.99 Median :127.20
Mean :67.99 Mean :127.09
3rd Qu.:69.27 3rd Qu.:134.88
Max. :75.15 Max. :170.92
>

Filed under: Data ScienceTagged with: ,