1 Einleitung

1.1 Über dieses Skript und den Kurs

Dieses “Skript” ist als Ergänzung zu dem Kurs Digitalanalyse an der HAW gedacht; es ist ein lebendes Dokument, das kontinuierlich erweitert wird. Der Text wurde mit R selbst und dem Bookdown-Package geschrieben.

Der Kurs ist für komplette Anfänger gedacht; allerdings wird erwartet, dass die Teilnehmer einen Computer bedienen können und nicht bei der ersten mathematischen Formel schreiend weglaufen.

Als Literatur zu dem Kurs werden Wollschläger (2017), Bruce and Bruce (2017), Grolemund and Wickham (2017), Chapman and Feit (2015), Andy Field (2012) und Provost and Fawcett (2013) empfohlen.

1.2 Warum Datenanalyse und Data Science lernen?

Der kompetente Umgang mit Daten wird immer mehr zu einer Schlüsselqualifikation. Während Datenanalyse zuvor vor allem von Spezialisten durchgeführt wurden, wird mittlerweile erwartet, dass auch Experten aus anderen Fachbereichen Daten analysieren können. Dies soll dazu helfen, dass Experten ihre Fragestellungen ohne weitere Übersetzung für einen Analysten formulieren lernen und dann selber mögliche Lösungen explorieren.

Um die Erwartungen zu managen: Man kann Data Science nicht in ein paar Wochen lernen, auch wenn Online-Kurse für einen günstigen Preis solche Versprechungen machen. Abgesehen davon, dass keine einheitlichliche Definition von Data Science existiert, sind zumindest Kenntnisse in der Programmierung sowie Statistik-Wissen notwendig. Auch dieser Kurs kann viele Bereiche nur oberflächlich behandeln, aber zumindest wird dargestellt, wo man sich weiter informieren kann.

1.3 Eine kleine Datengeschichte

Daten sind das neue Öl, so das derzeitige Mantra der Unternehmensberater. Daten seien ganz anders als Öl, so lauten die Kritikerstimmen, schließlich gehen Daten nie aus, anders als Öl, und sie können auch mehr als einmal verwendet werden. Wahrscheinlich darf man diesen Vergleich nicht wörtlich nehmen, sondern muss ihn interpretieren in Bezug auf das, was Öl für die Industrialisierung getan hat und Daten nun im digitalen Zeitalter tun können.

Tatsächlich sind Daten allerdings keine Errungenschaft des 20. oder 21. Jahrhunderts. Aber die Möglichkeiten, Daten zu erfassen und zu verarbeiten, haben sich in den letzten Jahrzehnten rasant verändert. Das liegt nicht nur an der stetig wachsenden Rechen- und Speicherkapazität, sondern auch an der zunehmenden Vernetzung von Computern, Handys, Sensoren und vielen anderen Geräten, die einen Zugang zum Internet haben.

Das Öl des 21. Jahrhunderts hat zu neuen Geschäftsmodellen geführt beziehungsweise verändert bestehende Modelle:

  • AirBnB hat mehr Zimmer im Angebot als die größte Hotelkette der Welt, die InterContinental Hotels Group.2 Gleichzeitig besitzt AirBnB kein ein- ziges dieser Zimmer. AirBnBs größter Schatz sind die Daten, von Nutzern erstellte Bewertungen, von Nutzern erstellte Beschreibungen und eine Plattform, die freie Zimmer weltweit durchsucht. Jeder kann von einem Moment auf den nächsten Vermieter werden, die Einstiegshürden sind gefallen, und selbst die Preise können dynamisch festgelegt werden, je nach Angebot und Nachfrage. Eine Rezeption und ein Hotelmanagement entfallen.

  • Die Firma Kobalt ist den meisten Menschen kaum bekannt, aber für profe sionelle Musiker ist dieser Service eine populäre Plattform, um Transparenz über die Nutzung ihrer Werke zu bekommen. Anstatt wie früher Monate oder sogar Jahre zu warten, bis die Plattenfirma eine kaum nachvollzieh- bare Abrechnung erstellt und den Künstler ausbezahlt hat, sehen Musiker über Kobalt in Echtzeit, wie viele ihrer Werke gerade als CD verkauft, in ei- nem Werbespot genutzt oder über Spotify gestreamt werden. Auch werden unrechtmäßige Nutzungen automatisiert identifiziert und Geld dafür einge- fordert. Und anstatt einen komplexen bürokratischen Prozess durchlaufen zu müssen, können Interessierte über die Plattform Rechte für ein Musik- stück anfragen, zum Beispiel um es in einer Veranstaltung einzusetzen, und der Künstler kann die Rechte über einen Mausklick freigeben. Eine Plat- tenfirma wird hier kaum noch benötigt, wobei Kobalt sogar selbst ein Label anbietet.3

  • Google erreicht einen Großteil des Umsatzes durch AdWords, eine Plattform, über die Werbung verkauft wird. Anstatt Verkäufer einzustellen, die die Werbeplätze verkaufen, erledigt hier ein selbst-optimierendes System die Arbeit.4 Die Werbetreibenden melden sich auf der Plattform an, erstellen Anzeigen und spezifizieren, für welche Suchbegriffe sie erscheinen wollen. Dann legen sie ein Gebot fest für einen Klick auf diese Anzeige. Angebot und Nachfrage erledigen den Rest. Je mehr Werbetreibende für einen Suchbegriff gefunden werden wollen, desto höher geht die Auktion, und desto mehr verdient Google. Und ist eine Anzeige anscheinend nicht so relevant für eine Suchanfrage und wird deshalb kaum angeklickt, so erhält der Werbetreibende automatisch einen Malus für die Suchbegriff-Anzeige-Kombination und muss mehr zahlen. Tausende dieser Auktionen finden jede Sekunde statt. Ohne Verkäufer. Ohne manuelle Preisfindung.

Die schiere Masse an verfügbaren Daten täuscht allerdings darüber hinweg, dass (noch?) nicht alles digital erfasst ist. Ein Werbetreibender mag sich zum Beispiel fragen, wie viele seiner Käufer nur nach seinem Produkt bei Google gesucht und es in seinem Online-Shop gekauft haben, weil es vorher im Fernsehen oder auf Plakatwänden beworben wurde. Zwar hat er die Daten, wann und wo sein Spot gesendet wurde und die Plakate hingen, aber eine direkte Zuordnung zu Käufern auf der Website5 ist nicht ohne weiteres möglich. Fehlende, schwer zu erfassen- de oder unvollständige Daten sind ein häufiges Problem in der Datenanalyse, das man durch das Erstellen von Modellen zu kompensieren versucht.

Das betrifft übrigens nicht nur fehlende Daten aus der Vergangenheit, sondern auch Daten für die Zukunft. Wie schwer es ist, Daten aus dem Jetzt für eine Prognose des Morgen zu nutzen, sehen wir an der Fehleranfälligkeit des Wetterberichts. Dennoch möchte man den Wetterbericht nicht missen. Genau so möchten Unternehmen zum Beispiel wissen, welche Produkte für einen bestehenden Kunden aufgrund seiner Kaufhistorie noch interessant sein könnten, und versuchen automatisiert Empfehlungen zu generieren. Oder sie versuchen herauszufinden, welcher Kunde mit einer höheren Wahrscheinlickeit kündigen könnte, um ihm ein besseres Angebot zu geben (sofern es ein ge- winnbringender Kunde ist).

Das bedeutet nicht, dass alle diese Aufgaben von einer Person bewältigt werden müssen und können. Auch existiert noch kein eindeutiges Berufsbild, wie wir im nächsten Abschnitt sehen werden.

Daten wurden eigentlich schon immer gesammelt, auch wenn sie nicht als solche bezeichnet wurden. Das Wort „Datum“ kommt vom lateinischen Wort dare und bedeutet in diesem Fall „gegeben“ oder das „Gegebene“. Der Singular wäre eigentlich Datum, aber da die Deutschen damit eher ein Kalenderdatum meinen, wird der Singular für Daten entweder vermieden oder eine Konstruktion verwendet wie Daten „Datenwert“. „Gegeben“ wurde übrigens damals ein Schriftstück, der Inhalt dieses Schriftstücks wurde zu dem Gegebenen. Daher kommt zum einen heute das Datum, das über einem Brief steht („gegeben am soundsovielten in soundso“, zum anderen ist dadurch auch das Wort „Datei“ entstanden, ein Kofferwort aus „Datum“ und „Kartei“.

Doch am Anfang wurde nichts gegeben, sondern einfach nur gezählt. Ein Bauer musste jeden Abend sein Vieh zählen, und hier wurden zum Beispiele Steine, für jedes Tier einer, gesammelt und morgens und abends abgeglichen. Natürlich wurde nicht nur das Vieh gezählt, auch Menschen wurden gezählt. Die Mutter al- ler Volkszählungen wird schon in der Bibel erwähnt. Tatsächlich existierten schon vorher Volkszählungen, und alle hatten das gleiche Ziel: Das Volk zu schätzen, um die Steuereinnahmen berechnen zu können. Datensammlungen bekamen also bereits früh einen negativen Beigeschmack für die Betroffenen. Das erklärt aber immer noch nicht, wieso das Wort „Daten“ im heutigen Kontext genutzt wird. Laut Rosenberg wurde der Begriff „data“ 1646 das erste Mal im Englischen genutzt für gegebene Quantitäten in mathematischen Problemen (Rosenberg (2013)). Die Konnotation änderte sich im Laufe des 18. Jahrhunderts von dem Gegebenen, also einem Fakt, zu dem Ergebnis eines Experiments oder einer Kalkulation.

Die Volkszählung in den USA um 1890 markierte einen Wendepunkt in der Geschichte der Daten, da das erste Mal Lochkarten verwendet wurden. Der deutschstämmige Hermann Hollerith ermöglichte es den Volkszählern, die für die Auswertung der großen Menge an Daten benötigte Zeit radikal zu reduzieren, indem weite Teile der Abfragen automatisiert wurden. Die Idee, Lochkarten zu nutzen, wurde übrigens durch die beiden Franzosen Falcon und Jacquard inspiriert, die Webstühle mit Holzbrettchen mit Löchern und später Lochkarten ausstatteten, so dass komplexe Muster automatisch gestaltet werden konnten.6 Aus der Firma Hollerith entstand später IBM, eine Abkürzung für Industrial Business Machines. Neben Tabelliermaschinen, die Lochkarten auswerten konnten, waren auch andere Bürogeräte wie Locher im Angebot.

Der erste programmgesteuerte Rechner war die Zuse Z3, fast gleichzeitig wurde in den USA der Mark I gebaut. Beide Systeme basieren auf Relais-Technik, die 1946 von der Röhrentechnik abgelöst wurde (UNIVAC, der erste kommerziell verfügbare Comprute).7 Die ersten Rechner auf Basis von Transistoren entstan- den Anfang der 50er Jahre, abgelöst wurden diese von integrierten Schaltkreisen in den 60er Jahren. Dadurch wurden Rechner das erste Mal so klein und günstig, dass sie nicht nur Großunternehmen zur Verfügung standen. In den 70er Jahren entwickelte sich eine Szene von Bastlern, die sich auf Basis von Mikroprozesso- ren eigene Rechner bauten, daraus ist unter anderem Apple entstanden. In den 80er Jahren wurden die ersten Heimcomputer populär, gleichzeitig zogen Computer in immer mehr Unternehmen ein. Und nicht nur die Rechner wurden schneller und preisgünstiger, auch die Datenspeicher. Hatten die ersten Festplatten in der Größe einer Waschmaschinentrommel gerade mal 5 MegaByte Speicher im Angebot, so finden heute auf einem Scheckkarten-großen Speicher TeraBytes an Daten Platz.

1.4 Bis wohin ist es Analyse und wo fängt Data Science an?

Zunächst einmal: Eine allgemein gültige Definition von Data Science existiert nicht. Klar definiert hingegen ist das Gebiet der Statistik, das Merriam-Webster als

“a branch of mathematics dealing with the collection, analysis, interpretation, and presentation of masses of numerical data”

bezeichnet. Offensichtlich ist Statistik eine Grundlage für die Arbeit mit Daten, und Kenntnisse in Statistik wird in vielen Stellenbeschreibungen für Data Scientiszts vorausgesetzt. Bortz formuliert (Bortz and Schuster (2010)):

“Statistik ist ein wichtiger Bestandteil empirisch-wissenschaftlichen Arbeitens, der sich mit der Zusammenfassung und Darstellung von Daten befasst. Darüber hinaus stellt die Statistik den empirischen Wissenschaftlern Verfahren zur Verfügung, mit denen objektive Entscheidungen über die Brauchbarkeit von wissenschaftlichen Hypothesen getroffen werden können.”

Was bedeutet nun Analyse genau? Analysis (also Analyse im Deutschen) wird im Merriam-Webster als

“a detailed examination of anything complex in order to understand its nature or to determine its essential features; a thorough study, doing a careful analysis of the problem”

definiert, wobei dann Analytics

“the method of logical analysis”

ist. Manche interpretieren daraus, dass sich Analysis mit der Vergangenheit beschäftigt und Analytics mit dem “Warum?” und der Zukunft, aber dies ist keine allgemeingültige Sicht. Eine andere Sicht ist die, dass sich Analytics keiner Null-Hypothesen bedient und stattdessen Machine Learning verwendet, um etwas Sinnvolles aus Daten zu gewinnen. Auch diese Ansicht ist nicht abgesichert. Man könnte Analytics auch als Mini-Statistik verstehen, in der nur Teilbereiche angewandt werden, die in der Geschäftswelt am meisten benötigt werden. Schließlich kann man Statistik studieren, und nicht jeder kann sich als Statistiker bezeichnen. Der Begriff Analytics hingegen ist weder definiert noch geschützt. Jeder kann sich als Analytics-Experte bezeichnen.

Der letzte zu klärende Begriff ist Data Science. Auch hier existiert keine allgemein akzeptierte Definition, aber man könnte hierunter die Überschneidung beziehungsweise den interdisziplinären Einsatz von Data Mining, Datenanalyse und Machine Learning verstehen. Provost und Fawcett beschreiben Data Science wie folgt (Provost and Fawcett 2013):

Data science involves principles, processes, and techniques for understanding phenomena via the (automated) analysis of data.

Provost und Fawcett verwenden die Begriffe „Data Science“ und „Data Mining“ fast austauschbar, wobei Data Mining in ihrer Definition nicht erwähnt wird. Gleichzeitig verweisen sie darauf, wie jung dieses Feld noch ist und die heutigen Data Scientists in mehreren Gebieten bewandt sein müssen:

“The particular concerns of data science are fairly new and general principles are just beginning to emerge. The state of data science may be likened to that of chemistry in the mid-19th century, when theories and general principles were being formulated and the field was largely experimental. Every good chemist had to be a competent lab technician. Similarly, it is hard to imagine a working data scientist who is not proficient with certain sorts of software tools.”

Um Daten automatisiert auswerten zu können, wird ein Statistik-Grundwissen vorausgesetzt. Eine Schnittmenge zwischen dem klar definierten Bereich der Statistik und dem noch schwammigen Bereich Data Science ist also erkennbar.

Man kann Data Science nicht innerhalb eines Kurses lernen. In diesem Kurs schnuppern wir in ein paar einfache Modelle rein, und auf weiterführende Modelle in der Literatur wird dann hingewiesen.

1.5 Warum R? Warum nicht Python?

Es ist kein “Entweder-oder”, denn auch wenn die Python-Jünger sagen, dass Python alles könne, so ist Python zunächst einmal eine mächtige allgemeine Programmiersprache, keine Sprache, die sich auf Statistik fokussiert. Natürlich existieren viele Erweiterungen für Python, um weitere Statistik-Funktionen hinzuzufügen, aber genau das ist der Punkt: Es sind Erweiterungen und keine grundsätzlichen Bestandteile wie bei R. Demgegenüber ist bei R so gut wie alles in der Standardinstallation enthalten, was man für die einfache Arbeit in der Statistik benötigt, es ist halt genau dafür ausgelegt. Aber auch R kann erweitert werden. Und auch für R existieren viele Libraries, die Funktionen nachrüsten, die Python eventuell schon mit Bordmitteln beherrscht. Libraries sind sozusagen Kollektionen von Routinen, die die Funktionen einer Programmiersprache erweitern. Mit Python und R kann man zum Beispiel mit Bordmitteln keine Webseite crawlen, das geht nur mit den zusätzlichen Libraries. In R werden Libraries auch packages oder Pakete genannt.

Manches kann Python mit seinen Erweiterungen einfach besser, zum Beispiel ist BeautifulSoup momentan noch ein viel besserer Web Scraper als Rvest es ist. Das Gute ist, dass sich beide Sprachen in RStudio wunderbar kombinieren lassen. Dazu später mehr. Ein großer Vorteil ist, dass R von Statistikern für Statistiker entwickelt wurde, also genau deren Bedürfnisse im Blick hatten. Manche bösen Zungen behaupten allerdings auch, dass dies der große Nachteil von R ist. Wiederum andere sagen, dass R süchtig macht und ungesund ist:

“Using R is a bit akin to smoking. The beginning is difficult, one may get headaches and even gag the first few times. But in the long run,it becomes pleasurable and even addictive. Yet, deep down, for those willing to be honest, there is something not fully healthy in it.” (Francois Pinard)

Natürlich stimmt das nicht. Zumindest nicht ganz. Vielleicht ein bisschen.

Wenn es um die Popularität von Programmiersprachen geht, so werden häufig Statistiken von Stack Overflow angeführt, in denen die Anzahl der Fragen/Antworten als Indikator für die Häufigkeit der Anwendung einer Programmiersprache genommen werden. Das klingt auf den ersten Blick sinnvoll, aber wenn man genauer darüber nachdenkt, dann könnte die Anzahl der Fragen auch ein Indikator dafür sein, wie viel Probleme Nutzer mit einer Sprache haben.

Dies soll aber kein “Flame War” werden, da der Autor auch ein Python-Fan ist. Allerdings ist für das Lernen von Statistik R aus der Erfahrung besser geeignet. Das Gute ist: Wenn man die Konzepte einmal verstanden hat, so ist das zusätzliche Lernen von Python ein Kinderspiel. Nun ja, fast.

Literatur

Andy Field, Zoe Field, Jeremy Miles. 2012. Discovering Statistics Using R. Sage Publications.

Bortz, Jürgen, and Christof Schuster. 2010. Statistik Für Human- Und Sozialwissenschaftler. 7th ed. Springer.

Bruce, Andrew, and Peter Bruce. 2017. Practical Statistics for Data Scientists. O’Reilly.

Chapman, Chris, and Elea McDonnell Feit. 2015. R for Marketing Research & Analytics. Usr R! Springer.

Grolemund, Garrett, and Hadley Wickham. 2017. R for Data Science. O’Reilly. https://r4ds.had.co.nz/.

Provost, Foster, and Tom Fawcett. 2013. Data Science for Business: What You Need to Know About Data Mining and Data-Analytic Thinking. O’Reilly.

Rosenberg, Daniel. 2013. “Data Before the Fact.” Edited by Lisa Gitelman. https://mitpress.mit.edu/books/raw-data-oxymoron.

Wollschläger, Daniel. 2017. Grundlagen Der Datenanalyse Mit R. Eine Anwendungsorientierte Einführung. 4th ed. Statistik Und Ihre Anwendungen. Springer Spektrum.