Data Science in der Praxis

Das Buch

Sie können das Buch beim Verlag oder bei Amazon bestellen. Auf dieser Seite finden Sie weitere Informationen zu dem Buch. Beschreibung des Buchs von der Webseite des Verlags:

Der ideale Einstieg in Data Science! Praktiker mit und ohne Mathematikkenntnisse bekommen hier alles, was sie für eigene Data-Science-Projekte brauchen: Einschlägige Analysemethoden werden nachvollziehbar und mit gerade so viel Theorie wie nötig vorgestellt. Neben der Programmiersprache R lernen Sie für alle Projektphasen die passenden Methoden und Werkzeuge kennen – sei es die Vorbereitung der Daten, die Auswahl der Verfahren oder das Trainieren der Modelle. Mit vielen Beispielen, Grafiken, Entscheidungshilfen und weiteren Praxistipps.

Mailingliste

Ich würde mich sehr freuen, wenn Sie sich auf meiner Mailingliste eintragen, um weitere Informationen zu meinen Buchprojekten zu erhalten!

GitHub Repository

Errata

S. 27, Konrad Zuse, Z1 und Z3

Die Z1 war ein mechanischer Computer, kein elektronischer. Erst die Z3 basierte komplett auf Relais.

S. 39, Fußnote

Ich verweise auf Shearer 2000, aber der Eintrag fehlt in der Literaturliste: Shearer, Colin: The CRISP-DM model: the new blueprint for data mining. In: Journal of data warehousing, 5 (2000), Nr. 4, S. 13-22.

S. 52, Spezifität und Sensitivität.

Die Berechnung ist falsch (und weder der Gutachter noch ich haben es gesehen). Die Sensitivität wird wie folgt berechnet:

  • Sensitivität = TP (Anzahl der wahren Positiven) / (TP + FN (Anzahl der falschen Negativen))

Die Spezifität wird widerum so berechnet:

  • Spezifität = TN (Anzahl der wahren Negativen) / (TN + FP (Anzahl der falschen Positiven))

Anhand des Beispiels:

  • Sensitivität (Recall) = TP / (TP + FN) = 9976 / (9976 + 24) = 9976 / 10000 ≈ 0.9976 oder 99,76%
  • Spezifität (True Negative Rate) = TN / (TN + FP) = 9995 / (9995 + 5) = 9995 / 10000 ≈ 0.9995 oder 99,95%

In diesem Beispiel beträgt die Sensitivität 99,76% und die Spezifität 99,95%.

S. 149

summary(data$dep_delay) muss natürlich summary(my_flights$dep_delay) sein. Dies habe ich auch im Notebook auf GitHub aktualisiert.

S. 286

Anstatt:

flights_delay %>% ggplot(delay, aes(dist, delay)) + geom_point(aes(size = count), alpha = 1/2) + geom_smooth() + scale_size_area(max_size = 2)

muss es

flights_delay %>% ggplot(., aes(dist, delay)) + geom_point(aes(size = count), alpha = 1/2) + geom_smooth() + scale_size_area(max_size = 2)

sein

  1. Einleitung
  2. Machine Learning, Data Science und Künstliche Intelligenz
  1. Ablauf eines Data Science-Projekts
  1. Einführung in R
  1. Explorative Datenanalyse
  1. Vorhersagen
  • keine Links
  1. Clustering
  1. Klassifikation
  1. Andere Anwendungsfälle
  1. Was kommt nach dem Modell?
  1. Datenschutz und Ethik
  1. Was kommt nach diesem Buch?
  1. Anhang
  • Typische Fehlermeldungen
  • Glossar