Kategorie: Data Science

Mehr als einen Kern unter Mac OS X nutzen

Heutige Prozessoren haben meist mehr als einen Kern, aber die meisten Programme nutzen nur einen. Oft ist es egal, der Rechner ist auch so schnell genug. Aber dann kommt man manchmal in Bereiche, wo man sich ärgert, dass man nur einen Kern nutzen kann. Vor allem bei den UNIX-Befehlen, die als GNU-Version zum Teil mehrere Kerne ausnutzen können, langweilt sich ein Teil meiner Mac-CPU während der andere zu 100 Prozent ausgelastet ist. In meinem Beispiel geht es um eine Text-Datei mit 8.6 GigaByte (nicht MegaByte :-), die ich sortieren und verarbeiten muss. Was wäre, wenn man mehr als einen Kern nutzen könnte?Continue reading

Filed under: Data ScienceTagged with: , ,

5 Gründe, warum Du Google Trends falsch verstehst




Im September 2015 stand ich für Google auf einer großen Bühne in Berlin und zeigte neben der Sprachsuche auch die Vorteile der neuen Features von Google Trends. Für einen Daten-Liebhaber wie mich ist Google Trends ein faszinierendes Werkzeug, wenn man alle Stolperfallen versteht und zu vermeiden weiß. Gleichzeitig bietet das Werkzeug viel Potential für Missverständnisse šŸ™‚ Suchanfragen werden in <> Klammern gesetzt.Continue reading

Filed under: Data ScienceTagged with: ,

Google-Analytics-Daten in R einlesen

Manchmal kann man nicht mit Packages wie googleAnalyticsR arbeiten oder bekommt die Daten anders zur Verfügung gestellt šŸ™ Datenformat aus Analytics exportiert sieht so aus:

11.01.13,"1,79"
12.01.13,"1,81"
13.01.13,"1,86"
14.01.13,"1,83"
15.01.13,"1,79"

R kann nichts mit dem Datumsformat anfangen, da RĀ gerne das POSIX-Datumsformat hätte (Jahr-Monat-Tag).

> analytics &lt;- read.table(file="analytics.csv", sep=",", dec=",", quote = "\"")
> analytics$V1 &lt;- strptime(analytics$V1,format="%d.%m.%y")
> summary(analytics)
V1 V2
Min. :2013-01-11 00:00:00 Min. :1.000
1st Qu.:2013-12-19 06:00:00 1st Qu.:1.550
Median :2014-11-26 12:00:00 Median :1.630
Mean :2014-11-26 11:23:44 Mean :1.632
3rd Qu.:2015-11-03 18:00:00 3rd Qu.:1.710
Max. :2016-10-11 00:00:00 Max. :2.520
>

In letzter Zeit habe ich mir angewöhnt, read.table anstatt read.csv oder read.csv2 zu nutzen, denn ich kann mir den Unterschied zwischen den beiden eh nicht merken und welche Parameter darin true sind oder nicht, und sie sind nur vorformatierte Variationen von read.table.

So kann es passieren, dass man unhübsche Daten bekommt, an denen summary() kapituliert:

V1 V2
65.65796: 3 124.7975: 4
67.34629: 3 121.1097: 3
67.94061: 3 123.5503: 3
67.97769: 3 124.0167: 3
68.30287: 3 126.2769: 3
68.93456: 3 126.7902: 3
(Other) :21062 (Other) :21061

In diesem Fall liegt es einfach daran, dass der Header nicht mit eingelesen wurde. Ganz anders mit der Angabe:

> size
[/code]
[code]
> summary(size)
Height Weight
Min. :60.28 Min. : 78.57
1st Qu.:66.70 1st Qu.:119.31
Median :67.99 Median :127.20
Mean :67.99 Mean :127.09
3rd Qu.:69.27 3rd Qu.:134.88
Max. :75.15 Max. :170.92
>

Filed under: Data ScienceTagged with: ,

10 Google Analytics Basics (auch für andere Web Analyse-Tools)

Google Analytics hatte letztes Jahr seinen 10. Geburtstag, und in den letzten mehr als 10 Jahren durfte ich einiges an Erfahrung sammeln, was man beim Einsatz von Web Analytics-Systemen beachten muss. Hier sindĀ meine 10Ā Basic-Tipps, angefangen mit den absolutenĀ Basics, den Abschluss bilden dann die Basics für diejenigen, die auch wirklich was mit ihren Daten anfangen wollen šŸ™‚Continue reading

Filed under: Data ScienceTagged with: ,

Scalable Capital und der Brexit

Anderthalb Monate sind entweder eine sehr lange oder eine sehr kurze Zeit für Anleger, ganz abhängig davon, ob sie jeden Tag traden oder ab und zu mal kaufen und sich dann 10 Jahre schlafen legen. Und wie gut die Algos von Scalable Capital funktionieren, das werden wir erst nach einer längeren Phase der Auf und Abs wissen. Aber der gewählte Brexit mit seinen Kurseinbrüchen ist ein guter Anlass einmal zu schauen, wie der RoboAdvisor damit klar gekommen ist.Continue reading

Filed under: Data ScienceTagged with:

Warum Social Search nicht funktioniert

Während Lycos iq-Mitkonzeper Oliver Wagner das Ausbleiben der Social Search-Revolution als Versäumnis sieht (damit aber nicht die reinen Social Search-Ansätze meint) und Robert Basic sogar die Social Bookmark-Dienste als Social Search Engines ansieht, ist eine allein auf Nutzerbewertungen basierende Social Search aufgrund seines Konzepts von vornherein für diejenigen gescheitert, die bereits tiefer in die Komplexität eines Suchalgorithmus geschaut haben.Continue reading

Filed under: Data ScienceTagged with: , ,