Das Buch
Sie können das Buch beim Verlag oder bei Amazon bestellen. Auf dieser Seite finden Sie weitere Informationen zu dem Buch. Beschreibung des Buchs von der Webseite des Verlags:
Der ideale Einstieg in Data Science! Praktiker mit und ohne Mathematikkenntnisse bekommen hier alles, was sie für eigene Data-Science-Projekte brauchen: Einschlägige Analysemethoden werden nachvollziehbar und mit gerade so viel Theorie wie nötig vorgestellt. Neben der Programmiersprache R lernen Sie für alle Projektphasen die passenden Methoden und Werkzeuge kennen – sei es die Vorbereitung der Daten, die Auswahl der Verfahren oder das Trainieren der Modelle. Mit vielen Beispielen, Grafiken, Entscheidungshilfen und weiteren Praxistipps.
Mailingliste
Ich würde mich sehr freuen, wenn Sie sich auf meiner Mailingliste eintragen, um weitere Informationen zu meinen Buchprojekten zu erhalten!
GitHub Repository
Errata
S. 27, Konrad Zuse, Z1 und Z3
Die Z1 war ein mechanischer Computer, kein elektronischer. Erst die Z3 basierte komplett auf Relais.
S. 39, Fußnote
Ich verweise auf Shearer 2000, aber der Eintrag fehlt in der Literaturliste: Shearer, Colin: The CRISP-DM model: the new blueprint for data mining. In: Journal of data warehousing, 5 (2000), Nr. 4, S. 13-22.
S. 52, Spezifität und Sensitivität.
Die Berechnung ist falsch (und weder der Gutachter noch ich haben es gesehen). Die Sensitivität wird wie folgt berechnet:
- Sensitivität = TP (Anzahl der wahren Positiven) / (TP + FN (Anzahl der falschen Negativen))
Die Spezifität wird widerum so berechnet:
- Spezifität = TN (Anzahl der wahren Negativen) / (TN + FP (Anzahl der falschen Positiven))
Anhand des Beispiels:
- Sensitivität (Recall) = TP / (TP + FN) = 9976 / (9976 + 24) = 9976 / 10000 ≈ 0.9976 oder 99,76%
- Spezifität (True Negative Rate) = TN / (TN + FP) = 9995 / (9995 + 5) = 9995 / 10000 ≈ 0.9995 oder 99,95%
In diesem Beispiel beträgt die Sensitivität 99,76% und die Spezifität 99,95%.
S. 149
summary(data$dep_delay) muss natürlich summary(my_flights$dep_delay) sein. Dies habe ich auch im Notebook auf GitHub aktualisiert.
S. 286
Anstatt:
flights_delay %>% ggplot(delay, aes(dist, delay)) + geom_point(aes(size = count), alpha = 1/2) + geom_smooth() + scale_size_area(max_size = 2)
muss es
flights_delay %>% ggplot(., aes(dist, delay)) + geom_point(aes(size = count), alpha = 1/2) + geom_smooth() + scale_size_area(max_size = 2)
sein
Weiterführende Links innerhalb des Buchs
- Einleitung
- Machine Learning, Data Science und Künstliche Intelligenz
- Ablauf eines Data Science-Projekts
- Einführung in R
- Download von R
- Die Mac-Seite des R-Projekts
- Download von RStudio
- Rundgang durch RStudio (Video)
- Bericht über den AOL-Suchanfragenskandal in der New York Times
- R Styleguide
- Die Open Source-Alternative zu SPSS: PSPP
- Die Programmiersprache Julia
- Artikel in der Nature über diePopularität von R in der Wissenschaft
- CRAN – Comprehensive R Archive Network
- Die R Foundation
- Das R Consortium
- Explorative Datenanalyse
- Beispiel für eine EDA mit dem NYC Flights 2013 Datensatz
- Wie funktionieren Notebooks? (Video)
- Eine weitere EDA, hier über Data Science und SEO
- Was sind Tibbles?
- Statistik-Tipps
- Cheat Sheet für Reguläre Ausdrücke in R
- Nicht einmal Wissenschaftler können den p-Wert erklären
- Vorhersagen
- keine Links
- Clustering
- Klassifikation
- Datensatz Titanic
- Datensatz Spam
- Beipiel für eine Klassifikations-Anwendung in der Dermatologie, der Fotofinder
- Andere Anwendungsfälle
- Was kommt nach dem Modell?
- Das kostenlose und hervorragende Buch Happy Git with R
- Die RStudio AMIs von Louis Aslett
- data.table
- Das plumber Package zum Erstellen von APIs
- Das [docker Image]/https://hub.docker.com/r/rstudio/plumber/) inklusive plumber
- Mein Corona-Dashboard, mit Shiny erstellt, https://alby.link/coronashinygithub.
- Datenschutz und Ethik
- Diskriminierung durch die Apple Credit card
- Das berühmte Snowden-Zitat
- Luca App… wirklich eine gute Idee???
- Warum ist Deutschland das Land des Datenschutzes?
- Statista: Facebook-Nutzer
- Statista: WhatsApp-Nutzer
- Statista: Umfragen zum Thema Datenschutz
- Statista: Internetnutzung in Deutschland
- [https://www.zeit.de/datenschutz/malte-spitz-vorratsdaten](Ein wunderbares Beispiel für Datenjournalismus in der Zeit)
- https://www.srd-rechtsanwaelte.de/blog/profiling-neuerungen-dsgvo-bdsg/
- Was kommt nach diesem Buch?
- Mein Artikel über lineare Regression bei der Preisfindung für gebrauchte Spiegelreflexkameras
- Stackoverflow Sites zum Thema
- CrossValidated für Statistik, Data Mining, Datenanalyse und Machine Learning
- Data Science
- Artificial Intelligence für alles um das Thema Künstliche Intelligenz
- Computer Science für Informatik-Interessierte
- Alle Sites
- Die R-Mailingliste
- R-Seek, eine Suchmaschine für R-Ressourcen
- Anhang
- Typische Fehlermeldungen
- Glossar