Daten-Analyse mit R

Nicht alle Fragestellungen können mit den Bordmitteln von Google Analytics, Adobe Analytics und anderen Lösungen gelöst werden. In solchen Fällen werden die Rohdaten aus den jeweiligen Systemen geladen und dann weiter verarbeitet. Ein anderer Grund für die Abfrage von Daten über Application Programming Interfaces (APIs) anstatt von graphischen Benutzerschnittstellen (GUIs) ist die Automatisierbarkeit der Erstellung von Reports. Diese beiden Use Cases werden am Beispiel von R gezeigt.

R ist eine Umgebung zur statistischen Datenverarbeitung und sowohl eine Sprache als auch die Umgebung selbst. Für die Nerds unter uns ist die Sprache R der Nachfolger von S. R kann kostenlos von der Webseite des R-Projekts heruntergeladen werden. Zusätzlich kann RStudio installiert werden, eine etwas bequemere Entwicklungsumgebung, die vor allem Studenten einfacher finden 🙂 Wichtig: Es muss zunächst R installiert werden, dann RStudio.

R oder Python?

Warum R und nicht Python? Es ist kein “Entweder-oder”, denn auch wenn die Python-Jünger sagen, dass Python alles könne, so ist Python zunächst einmal eine allgemeine Programmiersprache, keine Sprache, die sich auf Statistik fokussiert. Natürlich existieren viele Erweiterungen für Python, aber genau das ist der Punkt: Es sind Erweiterungen und keine grundsätzlichen Bestandteile wie bei R. Demgegenüber steht R: R hat so gut wie alles in der Standardinstallation, was man für die einfache Arbeit in der Statistik benötigt, es ist halt genau dafür ausgelegt. Aber auch R kann erweitert werden. Und auch für R existieren viele Libraries, die Funktionen nachrüsten, die Python eventuell schon mit Bordmitteln beherrscht. Libraries sind sozusagen Kollektionen von Routinen, die die Funktionen einer Programmiersprache erweitern. Mit Python und R kann man zum Beispiel mit Bordmitteln keine Webseite crawlen, das geht nur mit den zusätzlichen Libraries. In R werden Libraries auch packages oder Pakete genannt.

Manches kann Python mit seinen Erweiterungen einfach besser, zum Beispiel ist BeautifulSoup momentan noch ein viel besserer Web Scraper als Rvest es ist. Das Gute ist, dass sich beide Sprachen in RStudio wunderbar kombinieren lassen. Dazu später mehr. Ein großer Vorteil ist, dass R von Statistikern für Statistiker entwickelt wurde, also genau deren Bedürfnisse im Blick hatten. Manche bösen Zungen behaupten allerdings auch, dass dies der große Nachteil von R ist. Wiederum andere sagen, dass R süchtig macht und ungesund ist:

Using R is a bit akin to smoking. The beginning is difficult, one may get headaches and even gag the first few times. But in the long run,it becomes pleasurable and even addictive. Yet, deep down, for those willing to be honest, there is something not fully healthy in it.” (Francois Pinard)

Natürlich stimmt das nicht 🙂 Unternehmen wir also die ersten Schritte mit R und RStudio.