Erste Schritte mit R und RStudio

Nachdem R und RStudio installiert sind, kann R das erste Mal gestartet werden. RStudio unterteilt sich in vier Fenster, deren Funktionen unterschiedlich konfiguriert werden können. Die vier Fenster in der Standardkonfiguration haben folgende Funktionen:

  • Links oben ist der eigene Code sowie der Inhalt von Data Frames (zu denen kommen wir gleich).
  • Rechts oben ist eine Liste von Data Frames, Listen, Variablen und Verbindungen
  • Links unten ist die R-Konsole (die man auch sehen würde, wenn man nur R nutzte und nicht RStudio dazu) sowie ein Terminal-Fenster (das direkten Zugriff auf das darunter liegende Betriebssystem erlaubt)
  • Rechts unten sind die Daten im Dateisystem sowie Plots und eine Hilfefunktion zu sehen

Wir werden in unserem Kurs sogenannte Notebooks verwenden. Diese sind das Beste seit der Erfindung von Eiscreme, Musik oder Netflix: In einem Notebook kann sowohl der Code geschrieben werden als auch gleich das Ergebnis angesehen werden. Auch die Daten können in dem Notebook angesehen werden. Der Analyst kann also seine Gedanken aufschreiben, dazu den Code, wie diese Gedanken umgesetzt werden und darunter gleich die Ergebnisse. Dies kann zum Beispiel dafür genutzt werden, dass Daten explorativ analysiert werden, wenn noch nicht klar ist, ob der verwendete Ansatz erfolgreich ist oder nicht. Dies wird auch explorative Datenanalyse oder Exploratory Data Analysis (EDA) genant. Demgegenüber stehen Analyse-Aufgaben, die klare Ziele haben. Dieser Ansatz der Notebooks macht es für Andere einfach, die Gedankengänge des Analysten nachzuvollziehen. Hier ist ein Beispiel für ein Notebook über Data Science und SEO.

Notebooks werden erstellt, indem entweder auf das kleine Icon geklickt und der entsprechende Menupunkt ausgewählt wird, oder einfach über File/Datei -> New File/Neue Datei -> R Notebook.

Bei jedem neuen Notebook ist bereits ein Beispiel enthalten, es enthält den Befehl plot(cars). Dieser ist eingefasst in “`{r} und “`, diese Begrenzer sind sozusagen das Zeichen für RStudio, dass ein R-Befehl beginnt und beendet wird. Bitte einmal auf das kleine grüne Dreieck rechts in dem Block klicken, und schon wird der Befehl ausgeführt und es erscheint darunter ein Plot.

Des ist ein sehr einfaches Beispiel, eine Zeile Code, ein Plot als Ergebnis. Der Befehl “plot” plottet einen Datensatz, in diesem Fall den Datensatz cars. cars ist ein Data Frame, und wir können uns diesen genauer anschauen, indem ein neuer Abschnitt für R-Befehle erstellt wird (entweder über insert oder indem man den plot-Abschnitt mit den Begrenzern kopiert und dann den plot-Befehl löscht. In diese freie Zeile bitte nun einfach den Namen des Data Frames eingeben, cars, und dann auf das grüne Dreieck klicken. Der Inhalt des Data Frames wird nun angezeigt.

Wir haben damit bereits zwei Befehle gelernt: plot() plottet Daten, die Eingabe des Namens eines Data Frames (oder auch einer Liste) zeigt diesen an.

Außerdem sehen wir die Grundelemente eines Data Frames: Die Spalten stehen für Beobachtungsmerkmale, die Zeilen für Observationen. Dies ist ein ganz wichtiger Punkt für die Arbeit mit Data Frames, denn Data Frames sind eine elementare Datenstruktur.