data > opinion

Tom Alby

01 Lineare Regression

2020-08-18


Sie sind hier: start / lehrveranstaltungen / datenanalyse und machine learning mit excel / 01 linear regression /

Allgemeine Einführung in den Algorithmus

Die Lineare Regression ist eine der ältesten Methoden des maschinellen Lernens, die ihren Ursprung in den Überlegungen von Legendre und Gauss Anfang des 19. Jahrhunderts fand. Tatsächlich preisen manche Unternehmen Machine Learning und Künstliche Intelligenz an, bieten aber tatsächlich nicht sehr viel mehr als lineare Regression. Mit KI hat das aber nichts zu tun.

Mit der linearen Regression wird versucht, eine abhängige Variable durch eine oder auch mehrere unabhängige Variablen zu erklären. Im Gegensatz zur Korrelation, wo es darum geht zu untersuchen, wie stark ein Zusammenhang ist (ohne dabei eine Kausalität herstellen zu können), geht es bei der Regression um die bestmögliche Vorhersage der abhängigen Variable. Beispiel: Je mehr Statistik-Bücher gelesen werden, desto mehr Punkte werden in einer Statistikklausur geholt.

Eine solche Beziehung wird in einem Scatterplot schnell ersichtlich:

Wenn man die Augen zukneift und sich die Punkte ansieht, so wird schon fast die gerade Linie ersichtlich.

Ist dies aber die Linie, die bestmöglich durch diese Punkte führt? Um das herauszufinden, wird ein kleiner Trick angewendet. Es wird nicht nur eine Linie in den Plot gemalt, sondern ganz viele, und für jede Konstellation wird berechnet, wie weit die Punkte, die nicht genau auf der Linie sind, entfernt sind. Manchmal werden diese Abstände als “Fehler” bezeichnet, aber natürlich sind es keine Fehler, sondern einfach nur die Abstände, die die jeweilige Linie von den gegebenen Punkten erzeugt. Ein anderer Begriff dafür sind die Residuen. Offensichtlich sind die Abstände je nach Kurve unterschiedlich groß. Die nachfolgende Grafik illustriert den Ansatz mit der zuvor eingezeichneten Linie.

Nun wird die Linie gewählt, die den minimalen Abstand von der Linie zu den Punkten erzeugt. Dazu werden die Abstände quadriert und dann summiert. Für jede Linie durch diese Punkte wird dies wiederholt, bis die Summe der quadrierten Abweichungen am niedrigsten ist.

Dieses Prinzip, dass Entfernungen gemessen oder Fehler minimiert werden, ist grundlegend für viele Machine Learning-Algorithmen.

Implementierung mit Excel

Die einfachste Möglichkeit einer linearen Regression, die zumindest mit diesem kleinen Datensatz gut funktioniert, funktioniert so:

Fertig ist das Diagramm inklusive der von Excel berechneten Formel.

Der Solver ist hier noch nicht notwendig, für komplexere Daten ist er aber sinnvoll.