Data Science in der Praxis

Das Buch

Sie können das Buch beim Verlag oder bei Amazon bestellen. Auf dieser Seite finden Sie weitere Informationen zu dem Buch. Beschreibung des Buchs von der Webseite des Verlags:

Der ideale Einstieg in Data Science! Praktiker mit und ohne Mathematikkenntnisse bekommen hier alles, was sie für eigene Data-Science-Projekte brauchen: Einschlägige Analysemethoden werden nachvollziehbar und mit gerade so viel Theorie wie nötig vorgestellt. Neben der Programmiersprache R lernen Sie für alle Projektphasen die passenden Methoden und Werkzeuge kennen – sei es die Vorbereitung der Daten, die Auswahl der Verfahren oder das Trainieren der Modelle. Mit vielen Beispielen, Grafiken, Entscheidungshilfen und weiteren Praxistipps.

Mailingliste

Ich würde mich sehr freuen, wenn Sie sich auf meiner Mailingliste eintragen, um weitere Informationen zu meinen Buchprojekten zu erhalten!

GitHub Repository

Das GitHub Repository zum Buch

Errata

S. 27, Konrad Zuse, Z1 und Z3

Die Z1 war ein mechanischer Computer, kein elektronischer. Erst die Z3 basierte komplett auf Relais.

S. 39, Fußnote

Ich verweise auf Shearer 2000, aber der Eintrag fehlt in der Literaturliste: Shearer, Colin: The CRISP-DM model: the new blueprint for data mining. In: Journal of data warehousing, 5 (2000), Nr. 4, S. 13-22.

S. 52, Spezifität und Sensitivität.

Die Berechnung ist falsch (und weder der Gutachter noch ich haben es gesehen). Die Sensitivität wird wie folgt berechnet:

Sensitivität = TP (Anzahl der wahren Positiven) / (TP + FN (Anzahl der falschen Negativen))

Die Spezifität wird widerum so berechnet:

Spezifität = TN (Anzahl der wahren Negativen) / (TN + FP (Anzahl der falschen Positiven))

Anhand des Beispiels:

Sensitivität (Recall) = TP / (TP + FN) = 9976 / (9976 + 24) = 9976 / 10000 ≈ 0.9976 oder 99,76%
Spezifität (True Negative Rate) = TN / (TN + FP) = 9995 / (9995 + 5) = 9995 / 10000 ≈ 0.9995 oder 99,95%

In diesem Beispiel beträgt die Sensitivität 99,76% und die Spezifität 99,95%.

S. 149

summary(data$dep_delay) muss natürlich summary(my_flights$dep_delay) sein. Dies habe ich auch im Notebook auf GitHub aktualisiert.

S. 286

Anstatt:

flights_delay %>% ggplot(delay, aes(dist, delay)) + geom_point(aes(size = count), alpha = 1/2) + geom_smooth() + scale_size_area(max_size = 2)

muss es

flights_delay %>% ggplot(., aes(dist, delay)) + geom_point(aes(size = count), alpha = 1/2) + geom_smooth() + scale_size_area(max_size = 2)

sein

Weiterführende Links innerhalb des Buchs

Einleitung
Machine Learning, Data Science und Künstliche Intelligenz

Ablauf eines Data Science-Projekts

ASUM

Einführung in R

Explorative Datenanalyse

Vorhersagen

keine Links

Clustering

Datensatz Wein

Klassifikation

Andere Anwendungsfälle

Datensatz Kredite

Was kommt nach dem Modell?

Das kostenlose und hervorragende Buch Happy Git with R
Die RStudio AMIs von Louis Aslett
data.table
Das plumber Package zum Erstellen von APIs
Das [docker Image]/https://hub.docker.com/r/rstudio/plumber/) inklusive plumber
Mein Corona-Dashboard, mit Shiny erstellt, https://alby.link/coronashinygithub.

Datenschutz und Ethik

Diskriminierung durch die Apple Credit card
Das berühmte Snowden-Zitat
Luca App… wirklich eine gute Idee???
Warum ist Deutschland das Land des Datenschutzes?
Statista: Facebook-Nutzer
Statista: WhatsApp-Nutzer
Statista: Umfragen zum Thema Datenschutz
Statista: Internetnutzung in Deutschland
[https://www.zeit.de/datenschutz/malte-spitz-vorratsdaten](Ein wunderbares Beispiel für Datenjournalismus in der Zeit)
https://www.srd-rechtsanwaelte.de/blog/profiling-neuerungen-dsgvo-bdsg/

Was kommt nach diesem Buch?

Mein Artikel über lineare Regression bei der Preisfindung für gebrauchte Spiegelreflexkameras
Stackoverflow Sites zum Thema
- CrossValidated für Statistik, Data Mining, Datenanalyse und Machine Learning
- Data Science
- Artificial Intelligence für alles um das Thema Künstliche Intelligenz
- Computer Science für Informatik-Interessierte
- Alle Sites
Die R-Mailingliste
R-Seek, eine Suchmaschine für R-Ressourcen

Anhang

Typische Fehlermeldungen
Glossar