R-Funktion des Tages: rep.int

Problem: Ich bekomme von dem System eine aggregierte Liste der Nutzer, die in ein Bucket fallen, zum Beispiel wie viele Nutzer pro Anzahl Sekunden auf einer Seite waren:

seconds,users
0,”201,107″
1,”299,574″
2,”439,234″
3,”615,117″
4,”837,688″
5,”1,003,248″
6,”1,056,207″
7,”1,025,102″
8,”949,128″
9,”857,241″
10,”764,080″
11,”677,163″
12,”600,691″
13,”534,670″

Jetzt möchte ich die üblichen Werte wissen wie mean, median etc. Dumm nur, dass mir die einzelnen Werte nicht zur Verfügung stehen, sondern eben nur pro Kategorie wie 1 Sekunde, 2 Sekunden, 3 Sekunden und so weiter. Ich könnte jetzt zwar noch den Mean ausrechnen (indem ich zB eine dritte Spalte erstelle und in dieser das Produkt aus seconds und users berechne und dann summiere und durch die Summe der Spalte users teile, aber den Median bekomme ich trotzdem so nicht raus.

Lösung: rep.int. Diese Funktion wiederholt einen Wert in einer Spalte genau so oft wie in einer anderen Spalte angegeben, in diesem Beispiel mit

with(df, summary(rep.int(df$seconds,df$users)) )

 

Filed under: Data ScienceTagged with: ,

No comment yet, add your voice below!


Add a Comment

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Comment *

Name *
Email *
Website