data > opinion

Tom Alby

Datenanalyse und Machine Learning mit Excel

2020-10-04


Sie sind hier: start / lehrveranstaltungen / datenanalyse und machine learning mit excel /

Dies ist ein lebendes Skript, das kontinuierlich ergänzt und erweitert wird!

Einführung

Bitte lesen Sie unbedingt zunächst die allgemeine Einführung in Was sind Daten, was ist Data Science, und was hat das mit Künstlicher Intelligenz zu tun?

Warum Machine Learning?

Machine Learning, Data Science und Künstliche Intelligenz sind die Themen der späten 2010er und jetzigen 2020er Jahre. Datenanalyse und das Verständnis von Machine Learning ist eine Schlüsselquakifikation für die Arbeitswelt von heute und morgen.

Warum Machine Learning mit Excel?

Excel ist auf fast jedem Rechner installiert, so dass die Einstiegshürde gering ist, im Gegensatz zu Machine Learning mit einer Programmiersprache, wo zunächst einmal der Umgang mit der Programmiersprache gelernt werden muss. Es geht in diesem Kurs vor allem darum, gute Grundlagen der Datenanalyse sowie ein Verständnis der wichtigsten Machine Learning-Ansätze zu vermitteln. Zwar ist Excel nicht unbedingt das Lieblingswerkzeug der Data Scientists, aber tatsächlich können einfache Datenanalyse-Aufgaben, mit denen Data Scientists beschäftigt sind, auch schon mit Excel durchgeführt werden. Dies hilft auch den Data Scientists, die sich dadurch auf komplexere Themen fokussieren können.

Es ist möglich, nach diesem Kurs den Folgekurs Datenanalyse und Data Science mit R zu belegen, in dem weitere Konzepte vorgestellt werden, allerdings gibt es hier Überschneidungen.

Excel ist allerdings kein Ersatz für professionelle Sprachen wie R oder Python. In dem Kurs wird auch deutlich, dass Excel mit größeren Datenmengen Probleme hat, insbesondere wenn ein Datensatz viele Variablen beinhaltet. Auch müssen viele Schritte “per Hand” durchgeführt werden, die in R oder Python schon in den jeweiligen Libraries automatisch übernommen werden.

Unterschied Künstliche Intelligenz, Machine Learning und Data Science

Machine Learning ist ein Teilbereich der Künstlichen Intelligenz. Tatsächlich sind viele Algorithmen des Machine Learnings schon vor vielen Jahrzehnten in der Statistik entwickelt worden, nur waren zu der Zeit Computer wenigen zugänglich, ganz abgesehen davon, dass es auch kaum freie Software gab, die es einem ermöglichte, mit den Algorithmen zu arbeiten. Das hat sich nun grundlegend geändert, die Möglichkeiten stehen grundsätzlich jedem zur Verfügung. Dies hat zur gegenwärtigen Euphorie geführt, durch die auch das Thema Data Science ins Rampenlicht gerückt ist.

Data Science ist kein geschützter Begriff, aber man kann darunter eine Mischung aus Statistik, Machine Learning und Data Minings verstehen.

Was wird durchgenommen?

  • Erweiterte Excel-Grundlagen Wiederholung
  • Grundlagen der Datenanalyse und Statistik
  • Vorhersagen mit linearer Regression
  • Clustering mit K Means
  • Klassifikation mit Naive Bayes
  • Optimierungsmodelle
  • Datenvisualisierung

Voraussetzungen für diesen Kurs

Zunächst einmal sollten die Excel-Grundlagen und auch erweiterte Grundlagen beherrscht werden (zum Beispiel mit dem Excel 2016 Grundkurs). Wer einen Schnellkurs benötigt, für den ist auch der Kurs Datenanalyse mit Excel interessant.

Sind die Konzepte von

  • Pivot-Tabellen oder
  • Verbinden von Datensätzen mit VLOOKUP

nicht bekannt, so ist dies ein eindeutiges Zeichen dafür, dass die Grundlagen noch nachgeholt werden müssen :)

Ansonsten werden folgende Add-Ins für Excel benötigt:

Hinweis: In manchen Installationen wurde beobachtet, dass das Add-In einen türkischen Namen hat.

Danach sollte unter „Daten“ ein Band so aussehen (hier am Beispiel von einem Mac), links Solver und Datenanalyse, rechts der Open Solver, sofern man beides installiert hat:

Bei der Installation kann leider keine Hilfe geleistet werden, da je nach Excel-Version und Betriebssystem die Probleme sehr unterschiedlich sind. Es empfiehlt sich die Hilfeseiten von Microsoft und OpenSolver sehr genau zu studieren und gegebenenfalls auch die dazugehörigen Foren.

Es wird erwartet, dass die Voraussetzungen erfüllt sind, bevor der Kurs beginnt.