data > opinion

Tom Alby

03 Naive Bayes

2020-09-15


Sie sind hier: start / lehrveranstaltungen / datenanalyse und machine learning mit excel / 03 naive bayes /

Allgemeine Einführung in den Algorithmus

Naive Bayes sticht etwas heraus aus den typischen Machine Learning-Algorithmen. Der Klassifikator basiert nicht wie die meisten Algorithmen auf Entfernungen, sondern auf bedingten Wahrscheinlichkeiten. Er fällt in die Kategorie supervised learning.

Um Naive Bayes zu verstehen, schauen wir uns zunächst einmal den Satz von Bayes an:

\[p(B|A)= \frac{p(A|B)·p(B)} {p(A)}\] Wie hoch ist die Wahrscheinlichkeit für B, wenn A vorliegt? Beispiel: Wie hoch ist die Wahrscheinlichkeit, dass man an HIV erkrankt ist, wenn ein HIV-Test positiv ausgefallen ist? Angenommen, ein Test fällt zu 98% positiv aus, wenn tatsächlich eine Krankheit vorliegt (Sensitivität), und zu 97% negativ, wenn keine Krankheit vorliegt (Spezifizität), dann können wir anhand der Prävalenz auf alle Einwohner von 1% folgende Berechnung durchführen:

\[p(krank|test positiv) = \frac{p(test positiv | krank) · p(krank)} {p(test positiv)}\] wird zu

\[p(krank|test positiv) = \frac{0,98 · 0,01} {p(test positiv | krank) · p(krank) + p(test positiv | nicht krank) · p(nicht krank)}\] wird zu

\[p(krank|test positiv) = \frac{0,98 · 0,01} {0,98 · 0,01 + (1-0,97) · (1 - 0.01)}\]

wird zu

\[p(krank|test positiv) = \frac{0,98 · 0,01} {0,98 · 0,01 + 0,03 · 0.99} = 0,248 = 24,8\% \] Mit anderen Worten, mit den hier angenommenen Werten, liegt die Wahrscheinlichkeit tatsächlich HIV zu haben, wenn der Test positiv ausfällt, bei knapp unter 25%. Bitte beachten Sie, dass das angenommene Werte sind, nicht die tatsächlichen Werte.