data > opinion

Tom Alby

1 Warum Data Science?

2020-10-20


Warum überhaupt Data Science?

Datenanalyse als Schlüsselkompetenz

Daten sind das neue Öl, so das Mantra der Unternehmensberater und Wirtschaftspresse. Tatsächlich sind Daten keine Errungenschaft des 20. oder 21. Jahrhunderts, wie wir in der Geschichte der Daten sehen werden. Aber die Möglichkeiten, Daten zu erfassen und zu verarbeiten, haben sich in den 2000er Jahren rasant verändert. Das liegt zum einen an der stetig wachsenden Rechen- und Speicherkapazität, zum andern an der zunehmenden Vernetzung von Computern, Handys, Sensoren und vielen anderen Geräten, die einen Zugang zum Internet haben und immer mehr Daten produzieren.

Der kompetente Umgang mit Daten wird damit zu einer Schlüsselqualifikation. Während Datenanalyse zuvor vor allem von Spezialisten durchgeführt wurden, wird mittlerweile erwartet, dass auch Experten aus anderen Fachbereichen Daten analysieren können. Dies soll dazu führen, dass Experten ihre Fragestellungen ohne weitere Übersetzung für einen Analysten formulieren lernen und dann selber mögliche Lösungen explorieren.

Um die Erwartungen zu managen: Man kann Data Science nicht in ein paar Wochen lernen, auch wenn Online-Kurse für einen günstigen Preis solche Versprechungen machen. Abgesehen davon, dass keine einheitlichliche Definition von Data Science existieren (siehe weiter unten), sind zumindest Kenntnisse in der Programmierung sowie Statistik-Wissen notwendig. Auch dieser Kurs kann viele Bereiche nur oberflächlich behandeln, aber zumindest wird dargestellt, wo man sich weiter informieren kann.

Wie Daten unsere Welt verändern

Der Vergleich zwischen Daten und Öl hinkt ein wenig, schließlich gehen Daten nie aus, anders als Öl, und sie können auch mehr als einmal verwendet werden. Wahrscheinlich darf man diesen Vergleich nicht wörtlich nehmen, sondern muss ihn interpretieren in Bezug auf das, was Öl für die Industrialisierung getan hat und Daten nun im digitalen Zeitalter tun können. Die folgende Liste bietet nur eine kleine Liste zu neuen Geschäftsmodellen beziehungsweise veränderten Modelle:

  • AirBnB hat mehr Zimmer im Angebot als die größte Hotelkette der Welt, die InterContinental Hotels Group.2 Gleichzeitig besitzt AirBnB kein einziges dieser Zimmer. AirBnBs größter Schatz sind die Daten, von Nutzern erstellte Bewertungen, von Nutzern erstellte Beschreibungen und eine Plattform, die freie Zimmer weltweit durchsucht. Jeder kann von einem Moment auf den nächsten Vermieter werden, die Einstiegshürden sind gefallen, und selbst die Preise können dynamisch festgelegt werden, je nach Angebot und Nachfrage. Eine Rezeption und ein Hotelmanagement entfallen.

  • Die Firma Kobalt ist den meisten Menschen kaum bekannt, aber für professionelle Musiker ist dieser Service eine populäre Plattform, um Transparenz über die Nutzung ihrer Werke zu bekommen. Anstatt wie früher Monate oder sogar Jahre zu warten, bis die Plattenfirma eine kaum nachvollzieh- bare Abrechnung erstellt und den Künstler ausbezahlt hat, sehen Musiker über Kobalt in Echtzeit, wie viele ihrer Werke gerade als CD verkauft, in einem Werbespot genutzt oder über Spotify gestreamt werden. Auch werden unrechtmäßige Nutzungen automatisiert identifiziert und Geld dafür einge- fordert. Und anstatt einen komplexen bürokratischen Prozess durchlaufen zu müssen, können Interessierte über die Plattform Rechte für ein Musik- stück anfragen, zum Beispiel um es in einer Veranstaltung einzusetzen, und der Künstler kann die Rechte über einen Mausklick freigeben. Eine Plat- tenfirma wird hier kaum noch benötigt, wobei Kobalt sogar selbst ein Label anbietet.

  • Google erreicht einen Großteil des Umsatzes durch AdWords, eine Plattform, über die Werbung verkauft wird. Anstatt Verkäufer einzustellen, die die Werbeplätze verkaufen, erledigt hier ein selbst-optimierendes System die Arbeit.4 Die Werbetreibenden melden sich auf der Plattform an, erstellen Anzeigen und spezifizieren, für welche Suchbegriffe sie erscheinen wollen. Dann legen sie ein Gebot fest für einen Klick auf diese Anzeige. Angebot und Nachfrage erledigen den Rest. Je mehr Werbetreibende für einen Suchbegriff gefunden werden wollen, desto höher geht die Auktion, und desto mehr verdient Google. Und ist eine Anzeige anscheinend nicht so relevant für eine Suchanfrage und wird deshalb kaum angeklickt, so erhält der Werbetreibende automatisch einen Malus für die Suchbegriff-Anzeige-Kombination und muss mehr zahlen. Tausende dieser Auktionen finden jede Sekunde statt. Ohne Verkäufer. Ohne manuelle Preisfindung.

In diesen drei häufig zitierten Beispielen werden allerdings Daten und die sie auswertenden Algorithmen durcheinander geworfen. Denn Daten an sich sind abstrakt und ohne Interpretation und Nutzung ohne Wert. Zwar ist es einfacher geworden, viele Daten zu erheben und zu speichern, aber nur durch die oben erwähnte gleichzeitig schneller und günstiger gewordene Rechenleistung können Daten auch wertschöpfend ausgewertet und genutzt werden. Es ist also notwendig, sich nicht nur über die Erhebung von Daten Gedanken zu machen, sondern auch über deren Auswertung.

Die schiere Masse an verfügbaren Daten täuscht allerdings darüber hinweg, dass (noch?) nicht alles digital erfasst ist. Ein Werbetreibender mag sich zum Beispiel fragen, wie viele seiner Käufer nur nach seinem Produkt bei Google gesucht und es in seinem Online-Shop gekauft haben, weil es vorher im Fernsehen oder auf Plakatwänden beworben wurde. Zwar hat er die Daten, wann und wo sein Spot gesendet wurde und die Plakate hingen, aber eine direkte Zuordnung zu Käufern auf der Website5 ist nicht ohne weiteres möglich. Fehlende, schwer zu erfassen- de oder unvollständige Daten sind ein häufiges Problem in der Datenanalyse, das man durch das Erstellen von Modellen zu kompensieren versucht.

Das betrifft übrigens nicht nur fehlende Daten aus der Vergangenheit, sondern auch Daten für die Zukunft. Wie schwer es ist, Daten aus dem Jetzt für eine Prognose des Morgen zu nutzen, sehen wir an der Fehleranfälligkeit des Wetterberichts. Dennoch möchte man den Wetterbericht nicht missen. Genau so möchten Unternehmen zum Beispiel wissen, welche Produkte für einen bestehenden Kunden aufgrund seiner Kaufhistorie noch interessant sein könnten, und versuchen automatisiert Empfehlungen zu generieren. Oder sie versuchen herauszufinden, welcher Kunde mit einer höheren Wahrscheinlickeit kündigen könnte, um ihm ein besseres Angebot zu geben (sofern es ein gewinnbringender Kunde ist).