1 Einleitung

1.1 Über dieses Buch und den Kurs

Dieses “Buch” ist als Ergänzung zu dem Kurs Digitalanalyse an der HAW gedacht; es ist ein lebendes Dokument, das kontinuierlich erweitert wird. Der Text wurde mit R selbst und dem Bookdown-Package geschrieben, und jeder kann auf jeder Seite kommentieren und Vorschläge schreiben.

Der Kurs ist für komplette Anfänger gedacht; allerdings wird erwartet, dass die Teilnehmer einen Computer bedienen können.

Als Literatur zu dem Kurs werden Wollschläger (2017), Bruce and Bruce (2017), Grolemund and Wickham (2017), Chapman and Feit (2015), Andy Field (2012) und Provost and Fawcett (2013) empfohlen.

1.2 Warum Datenanalyse und Data Science lernen?

Der kompetente Umgang mit Daten wird immer mehr zu einer Schlüsselqualifikation. Während Datenanalyse zuvor vor allem von Spezialisten durchgeführt wurden, wird mittlerweile erwartet, dass auch Experten aus anderen Fachbereichen Daten analysieren können. Dies soll dazu helfen, dass Experten ihre Fragestellungen ohne weitere Übersetzung für einen Analysten formulieren lernen und dann selber mögliche Lösungen explorieren.

“Daten sind das neue Öl” oder “datengetriebene Entscheidungen” sind die neuen Mantras der Wirtschaft, und genau hier soll der Kurs den Teilnehmern ermöglichen, sich das entsprechende Rüstzeug aneignen.

1.3 Bis wohin ist es Analyse und wo fängt Data Science an?

Zunächst einmal: Eine allgemein gültige Definition von Data Science existiert nicht. Klar definiert hingegen ist das Gebiet der Statistik, das Merriam-Webster als

“a branch of mathematics dealing with the collection, analysis, interpretation, and presentation of masses of numerical data”

bezeichnet. Offensichtlich ist Statistik eine Grundlage für die Arbeit mit Daten, und Kenntnisse in Statistik wird in vielen Stellenbeschreibungen für Data Scientiszts vorausgesetzt. Bortz formuliert (Bortz and Schuster (2010)):

“Statistik ist ein wichtiger Bestandteil empirisch-wissenschaftlichen Arbeitens, der sich mit der Zusammenfassung und Darstellung von Daten befasst. Darüber hinaus stellt die Statistik den empirischen Wissenschaftlern Verfahren zur Verfügung, mit denen objektive Entscheidungen über die Brauchbarkeit von wissenschaftlichen Hypothesen getroffen werden können.”

Was bedeutet nun Analyse genau? Analysis (also Analyse im Deutschen) wird im Merriam-Webster als

“a detailed examination of anything complex in order to understand its nature or to determine its essential features; a thorough study, doing a careful analysis of the problem”

definiert, wobei dann Analytics

“the method of logical analysis”

ist. Manche interpretieren daraus, dass sich Analysis mit der Vergangenheit beschäftigt und Analytics mit dem “Warum?” und der Zukunft, aber dies ist keine allgemeingültige Sicht. Eine andere Sicht ist die, dass sich Analytics keiner Null-Hypothesen bedient und stattdessen Machine Learning verwendet, um etwas Sinnvolles aus Daten zu gewinnen. Auch diese Ansicht ist nicht abgesichert. Man könnte Analytics auch als Mini-Statistik verstehen, in der nur Teilbereiche angewandt werden, die in der Geschäftswelt am meisten benötigt werden. Schließlich kann man Statistik studieren, und nicht jeder kann sich als Statistiker bezeichnen. Der Begriff Analytics hingegen ist weder definiert noch geschützt. Jeder kann sich als Analytics-Experte bezeichnen.

Der letzte zu klärende Begriff ist Data Science. Auch hier existiert keine allgemein akzeptierte Definition, aber man könnte hierunter die Überschneidung beziehungsweise den interdisziplinären Einsatz von Data Mining, Datenanalyse und Machine Learning verstehen. Provost und Fawcett beschreiben Data Science wie folgt (Provost and Fawcett 2013):

Data science involves principles, processes, and techniques for understanding phenomena via the (automated) analysis of data.

Provost und Fawcett verwenden die Begriffe „Data Science“ und „Data Mining“ fast austauschbar, wobei Data Mining in ihrer Definition nicht erwähnt wird. Gleichzeitig verweisen sie darauf, wie jung dieses Feld noch ist und die heutigen Data Scientists in mehreren Gebieten bewandt sein müssen:

“The particular concerns of data science are fairly new and general principles are just beginning to emerge. The state of data science may be likened to that of chemistry in the mid-19th century, when theories and general principles were being formulated and the field was largely experimental. Every good chemist had to be a competent lab technician. Similarly, it is hard to imagine a working data scientist who is not proficient with certain sorts of software tools.”

Um Daten automatisiert auswerten zu können, wird ein Statistik-Grundwissen vorausgesetzt. Eine Schnittmenge zwischen dem klar definierten Bereich der Statistik und dem noch schwammigen Bereich Data Science ist also erkennbar.

Man kann Data Science nicht innerhalb eines Kurses lernen. In diesem Kurs schnuppern wir in ein paar einfache Modelle rein, und auf weiterführende Modelle in der Literatur wird dann hingewiesen.

1.4 Warum R? Warum nicht Python?

Es ist kein “Entweder-oder”, denn auch wenn die Python-Jünger sagen, dass Python alles könne, so ist Python zunächst einmal eine mächtige allgemeine Programmiersprache, keine Sprache, die sich auf Statistik fokussiert. Natürlich existieren viele Erweiterungen für Python, um weitere Statistik-Funktionen hinzuzufügen, aber genau das ist der Punkt: Es sind Erweiterungen und keine grundsätzlichen Bestandteile wie bei R. Demgegenüber ist bei R so gut wie alles in der Standardinstallation enthalten, was man für die einfache Arbeit in der Statistik benötigt, es ist halt genau dafür ausgelegt. Aber auch R kann erweitert werden. Und auch für R existieren viele Libraries, die Funktionen nachrüsten, die Python eventuell schon mit Bordmitteln beherrscht. Libraries sind sozusagen Kollektionen von Routinen, die die Funktionen einer Programmiersprache erweitern. Mit Python und R kann man zum Beispiel mit Bordmitteln keine Webseite crawlen, das geht nur mit den zusätzlichen Libraries. In R werden Libraries auch packages oder Pakete genannt.

Manches kann Python mit seinen Erweiterungen einfach besser, zum Beispiel ist BeautifulSoup momentan noch ein viel besserer Web Scraper als Rvest es ist. Das Gute ist, dass sich beide Sprachen in RStudio wunderbar kombinieren lassen. Dazu später mehr. Ein großer Vorteil ist, dass R von Statistikern für Statistiker entwickelt wurde, also genau deren Bedürfnisse im Blick hatten. Manche bösen Zungen behaupten allerdings auch, dass dies der große Nachteil von R ist. Wiederum andere sagen, dass R süchtig macht und ungesund ist:

“Using R is a bit akin to smoking. The beginning is difficult, one may get headaches and even gag the first few times. But in the long run,it becomes pleasurable and even addictive. Yet, deep down, for those willing to be honest, there is something not fully healthy in it.” (Francois Pinard)

Natürlich stimmt das nicht. Zumindest nicht ganz. Vielleicht ein bisschen.

Wenn es um die Popularität von Programmiersprachen geht, so werden häufig Statistiken von Stack Overflow angeführt, in denen die Anzahl der Fragen/Antworten als Indikator für die Häufigkeit der Anwendung einer Programmiersprache genommen werden. Das klingt auf den ersten Blick sinnvoll, aber wenn man genauer darüber nachdenkt, dann könnte die Anzahl der Fragen auch ein Indikator dafür sein, wie viel Probleme Nutzer mit einer Sprache haben.

Dies soll aber kein “Flame War” werden, da der Autor auch ein Python-Fan ist. Allerdings ist für das Lernen von Statistik R aus der Erfahrung besser geeignet. Das Gute ist: Wenn man die Konzepte einmal verstanden hat, so ist das zusätzliche Lernen von Python ein Kinderspiel. Nun ja, fast.

Literatur

Andy Field, Zoe Field, Jeremy Miles. 2012. Discovering Statistics Using R. Sage Publications.

Bortz, Jürgen, and Christof Schuster. 2010. Statistik Für Human- Und Sozialwissenschaftler. 7th ed. Springer.

Bruce, Andrew, and Peter Bruce. 2017. Practical Statistics for Data Scientists. O’Reilly.

Chapman, Chris, and Elea McDonnell Feit. 2015. R for Marketing Research & Analytics. Usr R! Springer.

Grolemund, Garrett, and Hadley Wickham. 2017. R for Data Science. O’Reilly. https://r4ds.had.co.nz/.

Provost, Foster, and Tom Fawcett. 2013. Data Science for Business: What You Need to Know About Data Mining and Data-Analytic Thinking. O’Reilly.

Wollschläger, Daniel. 2017. Grundlagen Der Datenanalyse Mit R. Eine Anwendungsorientierte Einführung. 4th ed. Statistik Und Ihre Anwendungen. Springer Spektrum.