Data Science-Tools

Python, R und SQL are probaly some of the most important tools for data scientists. Sometimes, SAS will be mentioned, too. The question whether R or Python is better reminds of  religious discussions , similar to the discussion if a Mac or Windows is better (of course, a Mac is better :-). In fact, it is advantageous to know all of these tools. All of these tools can be used together as R can read data from SQL and Python can use R sessions.

The bonmot “A fool with a tool is still a fool” also is important in this context. None of the tools works automatically:

  • Python is a programming language that can be used to write programs that are not only restricted to statistics.
  • R is a programming language, developed by statisticians for statisticans, and  ist auch eine Programmiersprache, wurde von Statistikern für Statistiker entwickelt, kann wenig anderes als Statistik und hat eine nicht-triviale Lernkurve.
  • SQL ist eine Datenbanksprache, mit der Daten in Datenbanken gespeichert, manipuliert und abgerufen werden können. Wie Python ist SQL nicht auf Statistik beschränkt.

Nach zunehmender Schwierigkeit würde man die drei wohl in der Reihenfolge SQL, Python und R sortieren (sofern man Python und R überhaupt miteinander vergleichen kann), wobei R umso einfacher fällt, je mehr Statistik-Wissen vorhanden ist. Und da kommen wir auch schon zu einem der wichtigsten Punkte: Statistik-Wissen ist elementar in der Daten-Analyse. Nur damit ist man kein “Fool” mehr beim Benutzen der Werkzeuge 🙂

Das Seminar bietet keine Einführung in Python, dafür gibt es Online-Kurse sowie Bücher. Das Gleiche gilt für SQL, ein paar “Rezepte” werden vorgestellt. Nur für R existiert meines Wissens nach kein Online-Kurs für Anfänger. Dies wird im Seminar nachgeholt.

Neben diesen 3 Werkzeugen sind auch UNIX-Kommandos-Kenntnisse vorteilhaft. Ein großer Teil der Arbeitszeit eines Datenmenschen geht dafür drauf, Daten in ein Format zu bringen, dass analysierbar ist. UNIX bietet viele Kommandozeilen-Tools, die schnell und mehr oder weniger unkompliziert eine (Vor-)Verarbeitung ermöglichen.

Hier geht es weiter: