data > opinion

Tom Alby

Was sind Daten, was ist Data Science, und was hat das mit Künstlicher Intelligenz zu tun?


Sie sind hier: start / lehrveranstaltungen / was_sind_daten_data_science_machine_learning_und_kuenstliche_intelligenz /

Warum Datenanalyse und Data Science lernen?

Datenanalyse als Schlüsselkompetenz

Daten sind das neue Öl, so das Mantra der Unternehmensberater und Wirtschaftspresse. Tatsächlich sind Daten keine Errungenschaft des 20. oder 21. Jahrhunderts, wie wir in der Geschichte der Daten sehen werden. Aber die Möglichkeiten, Daten zu erfassen und zu verarbeiten, haben sich in den 2000er Jahren rasant verändert. Das liegt zum einen an der stetig wachsenden Rechen- und Speicherkapazität, zum andern an der zunehmenden Vernetzung von Computern, Handys, Sensoren und vielen anderen Geräten, die einen Zugang zum Internet haben und immer mehr Daten produzieren.

Der kompetente Umgang mit Daten wird damit zu einer Schlüsselqualifikation. Während Datenanalyse zuvor vor allem von Spezialisten durchgeführt wurden, wird mittlerweile erwartet, dass auch Experten aus anderen Fachbereichen Daten analysieren können. Dies soll dazu führen, dass Experten ihre Fragestellungen ohne weitere Übersetzung für einen Analysten formulieren lernen und dann selber mögliche Lösungen explorieren.

Um die Erwartungen zu managen: Man kann Data Science nicht in ein paar Wochen lernen, auch wenn Online-Kurse für einen günstigen Preis solche Versprechungen machen. Abgesehen davon, dass keine einheitlichliche Definition von Data Science existieren (siehe weiter unten), sind zumindest Kenntnisse in der Programmierung sowie Statistik-Wissen notwendig. Auch dieser Kurs kann viele Bereiche nur oberflächlich behandeln, aber zumindest wird dargestellt, wo man sich weiter informieren kann.

Wie Daten unsere Welt verändern

Der Vergleich zwischen Daten und Öl hinkt ein wenig, schließlich gehen Daten nie aus, anders als Öl, und sie können auch mehr als einmal verwendet werden. Wahrscheinlich darf man diesen Vergleich nicht wörtlich nehmen, sondern muss ihn interpretieren in Bezug auf das, was Öl für die Industrialisierung getan hat und Daten nun im digitalen Zeitalter tun können. Die folgende Liste bietet nur eine kleine Liste zu neuen Geschäftsmodellen beziehungsweise veränderten Modelle:

In diesen drei häufig zitierten Beispielen werden allerdings Daten und die sie auswertenden Algorithmen durcheinander geworfen. Denn Daten an sich sind abstrakt und ohne Interpretation und Nutzung ohne Wert. Zwar ist es einfacher geworden, viele Daten zu erheben und zu speichern, aber nur durch die oben erwähnte gleichzeitig schneller und günstiger gewordene Rechenleistung können Daten auch wertschöpfend ausgewertet und genutzt werden. Es ist also notwendig, sich nicht nur über die Erhebung von Daten Gedanken zu machen, sondern auch über deren Auswertung.

Die schiere Masse an verfügbaren Daten täuscht allerdings darüber hinweg, dass (noch?) nicht alles digital erfasst ist. Ein Werbetreibender mag sich zum Beispiel fragen, wie viele seiner Käufer nur nach seinem Produkt bei Google gesucht und es in seinem Online-Shop gekauft haben, weil es vorher im Fernsehen oder auf Plakatwänden beworben wurde. Zwar hat er die Daten, wann und wo sein Spot gesendet wurde und die Plakate hingen, aber eine direkte Zuordnung zu Käufern auf der Website5 ist nicht ohne weiteres möglich. Fehlende, schwer zu erfassen- de oder unvollständige Daten sind ein häufiges Problem in der Datenanalyse, das man durch das Erstellen von Modellen zu kompensieren versucht.

Das betrifft übrigens nicht nur fehlende Daten aus der Vergangenheit, sondern auch Daten für die Zukunft. Wie schwer es ist, Daten aus dem Jetzt für eine Prognose des Morgen zu nutzen, sehen wir an der Fehleranfälligkeit des Wetterberichts. Dennoch möchte man den Wetterbericht nicht missen. Genau so möchten Unternehmen zum Beispiel wissen, welche Produkte für einen bestehenden Kunden aufgrund seiner Kaufhistorie noch interessant sein könnten, und versuchen automatisiert Empfehlungen zu generieren. Oder sie versuchen herauszufinden, welcher Kunde mit einer höheren Wahrscheinlickeit kündigen könnte, um ihm ein besseres Angebot zu geben (sofern es ein gewinnbringender Kunde ist).

Was sind Daten? Eine kleine Datengeschichte

Ursprung des Wortes

Daten wurden eigentlich schon immer gesammelt, auch wenn sie nicht als solche bezeichnet wurden. Das Wort „Datum“ kommt vom lateinischen Wort dare und bedeutet in diesem Fall „gegeben“ oder das „Gegebene“. Der Singular wäre eigentlich Datum, aber da die Deutschen damit eher ein Kalenderdatum meinen, wird der Singular für Daten entweder vermieden oder eine Konstruktion verwendet wie Daten „Datenwert“. „Gegeben“ wurde übrigens damals ein Schriftstück, der Inhalt dieses Schriftstücks wurde zu dem Gegebenen. Daher kommt zum einen heute das Datum, das über einem Brief steht („gegeben am soundsovielten in soundso“, zum anderen ist dadurch auch das Wort „Datei“ entstanden, ein Kofferwort aus „Datum“ und „Kartei“.

Von Data zu Big Data?

Heute wird nicht mehr nur von Daten gesprochen, sondern gleich von Big Data, wobei die wenigsten verstehen, was Big Data eigentlich ist. Tatsächlich ist Big Data auch nicht wirklich definiert, in der Regel versteht man darunter aber Daten, die aufgrund ihrer Menge und/oder Struktur kompliziert zu verarbeiten sind.

Um den Unterschied deutlich zu machen: Die deutsche Version von Wikipedia kann als XML-Datei heruntergeladen werden und ist entpackt knapp 20 GigaByte groß. Eine Analyse der Daten kann mehrere Minuten dauern, bei komplexen Ab- fragen auch länger. Aber die XML-Datei von Wikipedia ist kein Big Data, selbst wenn sich knapp zwei Millionen Artikel in der deutschen Wikipedia-Datei befinden. Die Daten, die zum Beispiel ein Telekommunikationsprovider jeden Tag sammelt, können eher als Big Data aufgefasst werden, insbesondere wenn es um Kommunikationsdaten geht, die in Echtzeit automatisiert analysiert werden sollen. Die Komplexität von Daten, die Menge und ihre Prozessierungsgeschwindigkeit sind Faktoren, die Big Data ausmachen können, sofern es eine allgemein gültige Definition gäbe.

Vom Zählen des Viehs zur Volkszählung

Schon vor vielen 1.000 Jahren wurde gezählt. Ein Bauer musste jeden Abend sein Vieh zählen, und hier wurden zum Beispiele Steine, für jedes Tier einer, gesammelt und morgens und abends abgeglichen. Natürlich wurde nicht nur das Vieh gezählt, auch Menschen wurden gezählt. Die Mutter aller Volkszählungen wird schon in der Bibel erwähnt. Tatsächlich existierten schon vorher Volkszählungen, und alle hatten das gleiche Ziel: Das Volk zu schätzen, um die Steuereinnahmen berechnen zu können. Datensammlungen bekamen also bereits früh einen negativen Beigeschmack für die Betroffenen. Das erklärt aber immer noch nicht, wieso das Wort „Daten“ im heutigen Kontext genutzt wird. Laut Rosenberg wurde der Begriff „data“ 1646 das erste Mal im Englischen genutzt für gegebene Quantitäten in mathematischen Problemen (@rosenberg2013). Die Konnotation änderte sich im Laufe des 18. Jahrhunderts von dem Gegebenen, also einem Fakt, zu dem Ergebnis eines Experiments oder einer Kalkulation.

Lochkarten und Tabelliermaschinen: Die Vorfahren der EDV

Die Volkszählung in den USA um 1890 markierte einen Wendepunkt in der Geschichte der Daten, da das erste Mal Lochkarten verwendet wurden. Der deutschstämmige Hermann Hollerith ermöglichte es den Volkszählern, die für die Auswertung der großen Menge an Daten benötigte Zeit radikal zu reduzieren, indem weite Teile der Abfragen automatisiert wurden. Die Idee, Lochkarten zu nutzen, wurde übrigens durch die beiden Franzosen Falcon und Jacquard inspiriert, die Webstühle mit Holzbrettchen mit Löchern und später Lochkarten ausstatteten, so dass komplexe Muster automatisch gestaltet werden konnten.6 Aus der Firma Hollerith entstand später IBM, eine Abkürzung für Industrial Business Machines. Neben Tabelliermaschinen, die Lochkarten auswerten konnten, waren auch andere Bürogeräte wie Locher im Angebot.

Von den ersten Rechnern zur heutigen vernetzten Welt

Der erste programmgesteuerte Rechner war die Zuse Z3, fast gleichzeitig wurde in den USA der Mark I gebaut. Beide Systeme basieren auf Relais-Technik, die 1946 von der Röhrentechnik abgelöst wurde (UNIVAC, der erste kommerziell verfügbare Comprute).7 Die ersten Rechner auf Basis von Transistoren entstan- den Anfang der 50er Jahre, abgelöst wurden diese von integrierten Schaltkreisen in den 60er Jahren. Dadurch wurden Rechner das erste Mal so klein und günstig, dass sie nicht nur Großunternehmen zur Verfügung standen. In den 70er Jahren entwickelte sich eine Szene von Bastlern, die sich auf Basis von Mikroprozessoren eigene Rechner bauten, daraus ist unter anderem Apple entstanden. In den 80er Jahren wurden die ersten Heimcomputer populär, gleichzeitig zogen Computer in immer mehr Unternehmen ein. Jeder konnte nun mit einem Computer arbeiten, der um ein Vielfaches schneller war als die ersten Großrechner der 50er und 60er Jahre und gleichzeitig nur wenige 1.000 DM kostete. Die steigende Verfügbarkeit von Computern für mehr Menschen bedeutete auch, dass Software entstand für immer mehr Anwendungen. War SPSS (Statistical Package for the Social Sciences, ein populäres Programm in der Statistik) im Jahr 1968 nur wenigen Anwendern vorbehalten, die Daten und Programme in Lochkarten stanzen mussten, kann das heutige IBM SPSS auf jedem PC laufen. Noch besser, anstatt über 3.000€ für eine Lizenz auszugeben, existieren Open Source-Alternativen wie R, die sich jeder kostenlos herunterladen und verwenden kann. Die Verfügbarkeit von Rechenzeit für jeden hat somit auch zu Anwendungen für jeden verholfen.

Heute ist jedes Handy schneller als die Rechner damals, und ein Raspberry Pi für 30€ verfügt über 4.744 MIPS bei 1 GHz. Gleichzeitig kostet er nur einen Bruchteil dessen, was ein Univac kostete (ca. 1.5 Millionen Dollar, wobei ein Dollar damals ungefähr so viel wert war wie heute 8 Dollar). Und nicht nur die Rechner wurden schneller und preisgünstiger, auch die Datenspeicher. Hatten die ersten Festplatten in der Größe einer Waschmaschinentrommel gerade mal 5 MegaByte Speicher im Angebot, so finden heute auf einem Scheckkarten-großen Speicher TeraBytes an Daten Platz. Dieser Speicher kann auch viel schneller gelesen werden als zum Beispiel die Festplatten und Bänder, die im 20. Jahrhundert verwendet wurden.

Würde man all diese Entwicklungen auf einem Zeitstrahl visualisieren, so würden schnell exponentielle Verläufe deutlich werden (selbst wenn Moore’s Law nicht mehr zu gelten scheint). Dieser kleine Ausflug in die Geschichte der Rechenleistungen und ihrer Entwicklung zeigt, wie schnell sich technischer Fortschritt entwickeln kann; exponentielle Entwicklungen sind für den Menschen ansonsten nur schwer nachvollziehbar.

Vom KI-Winter zu Machine Learning

Mit schnelleren Rechnern scheinen sich gleichzeitig einige Versprechen der Künstlichen Intelligenz zu erfüllen, so dass anhand von Daten automatisiert neue Erkenntnisse gewonnen werden können, die früher unmöglich waren. So glaubte man bereits in den 1950er Jahren, dass Maschinen so intelligent werden könnten, dass sie den Menschen die Arbeit abnehmen würden. Diese Vorhersage ist offensichtlich nicht eingetreten, was zu dem so genannten KI-Winter führte. Die nicht erfüllten Vorhersagen führten zu einer Kürzung der Gelder und somit zu einer Verlangsamung der Entwicklung. Maschinen haben nicht so schnell gelernt wie erwartet. Seit den 2000er Jahren hat sich die Entwicklung lernender Systeme exponentiell beschleunigt, wenngleich von einer allumfassenden Künstlichen Intelligenz noch (!!!) nicht die Rede sein kann. Machine Learning ist ein Teilbereich der Künstlichen Intelligenz, wenn man so will, obwohl bereits vorher in der computergestützten Statistik maschinelles Lernen angewendet wurde.

Die Vorstellung, dass Computer Aufgaben übernehmen können, die vorher Menschen bearbeitet haben, ist nicht neu, wenn man an die Automatisierung von Arbeit denkt. Webstühle wurden maschinell gesteuert, Autos werden von Robotern gebaut, doch bisher traf es vor allem die Un- oder Angelernten der Bevölkerung, die ihren Job verloren. Das könnte dieses Mal anders ausgehen, wie das folgende Video verdeutlicht:

Es ist nicht unbedingt gesagt, dass es genau so kommen muss. Nach dem Gartner Hype Cycle wird fast jede neue Technologie zu Beginn gehyped, gefolgt von einem Tal der Enttäuschung, auf das wiederum ein Plateau der Produktivität folgt. Dennoch ist davon auszugehen, dass die Fähigkeit, Daten kompetent zu analysieren, eine Schlüsselkompetenz ist in einer Zeit, die sich durch die intelligente Verwendung von Daten definiert.

Von Hackern und Datenschutz

Von Computerhirnen und Hackern

Hatten die Menschen zu Beginn des Computer-Zeitalters noch romantische Vorstellungen, was ein Computer für sie tun könnte (siehe unten die Aufnahme von 1968, und wenn man sich die Partnerbörsen heute ansieht, dann war France Gall gar nicht so weit entfernt), wuchs das Misstrauen in die zunehmende Computerisierung in den 1970er Jahren (siehe vor allem Bergmann 2009).

Der Computer war eine Black Box für die Mehrheit der Menschen, die keinen Zugang zu einem Computer hatten und erst recht nicht wussten, was wann und wie über sie gespeichert wurde. 1983 stellte zum Beispiel die Schufa komplett auf EDV um, und auch wenn jeder Auskunft über seine bei der Schufa gespeicherten Daten bekommen kann, so bedeutet das noch lange nicht, dass man diese Daten auch ändern könnte oder überhaupt versteht, welche Konsequenz die bei der Schufa gesammelten Daten für das eigene Leben haben können. Was bedeutet denn der Score von 93% genau? Wie kommt er zustande? Wie kann ich ihn ändern? Wo vorher in Unternehmen ein Kundenberater nach eigenem Ermessen eine Entscheidung fällen konnte, wurde dies nun durch ein anonymes System bewerkstelligt, was zu einem Gefühl der Machtlosigkeit führte.

Hinzu kam, dass die neue Computerwelt nicht so sicher war, wie die Betreiber zu glauben machen versuchten. Der Chaos Computer Club schaffte es zum Beispiel, der Hamburger Sparkasse einen sechsstelligen D-Mark-Betrag über das angeblich sichere BTX-System zu entwenden. Dabei ging es den Hackern nicht darum Geld zu klauen, sondern auf die fehlende Sicherheit des Systems hinzuweisen.

Die Volkszählung in Deutschland 1983 beziehungsweise 1987 tat ihr Übrigens dazu, das Misstrauen der Bevölkerung in das Sammeln von Daten zu fördern. Eigentlich sollte die Volkszählung 1983 stattfinden, dies wurde aber durch massive Proteste und ein wegweisendes Urteil des Bundesverfassungsgerichts verhindert. Die Proteste waren von einer breiten Allianz von Gruppierungen unterstützt, die gerade frisch in den Bundestag gekommenen Grünen ebenso wie die Jugendorganisation der FDP. Das Bundesverfassungsgericht stellte das Recht auf informationelle Selbstbestimmung als ein Grundrecht dar, so dass bei dem Entwurf der Volkszählung stark nachgearbeitet werden musste. Und selbst die dann 1987 stattfindende Volkszählung war von Protesten und Verweigerung begleitet.

Datenschutz

Nicht nur die fehlende Vertrautheit mit Computern, sondern auch zwei politische Systeme, die im 20. Jahrhundert auf dem heutigen deutschen Gebiet ihre Bevölkerung überwacht haben, haben einen Einfluss auf die Datenschutzbewegung gehabt. Tatsächlich ist Datenschutz auch in anderen Ländern ein Thema, allerdings in unterschiedlicher Ausprägung, obwohl die zuvor beschriebene Informatisierung des Lebens fast überall auftrat. Sicherheitsrechtliche sowie wirtschaftliche Aspekte verhinderten und verhindern noch immer, dass zum Beispiel die USA ähnliche Datenschutzgesetze hat wie Deutschland. Der Schutz des Staates und die damit verbundene Möglichkeit des Einsehens persönlicher Daten durch den Staat zum einen, aber auch das wachsende Wirtschaftssegment der Computertechnologie in den USA führten zu einem anderen Umgang mit Daten, der es bis heute unmöglich macht, internationale Gesetze zum Datenschutz zu vereinbaren. Noch heute wird in der deutschen Werbeszene darüber lamentiert, dass die amerikanischen Marktbegleiter deutliche Vorteile hätten, weil sie weniger strengen Datenschutzgesetzen unterliegen.

Bis wohin ist es Analyse und wo fängt Data Science an?

Zunächst einmal: Eine allgemein gültige Definition von Data Science existiert nicht. Klar definiert hingegen ist das Gebiet der Statistik, das Merriam-Webster als

“a branch of mathematics dealing with the collection, analysis, interpretation, and presentation of masses of numerical data”

bezeichnet. Offensichtlich ist Statistik eine Grundlage für die Arbeit mit Daten, und Kenntnisse in Statistik wird in vielen Stellenbeschreibungen für Data Scientiszts vorausgesetzt. Bortz formuliert (@bortz2010):

“Statistik ist ein wichtiger Bestandteil empirisch-wissenschaftlichen Arbeitens, der sich mit der Zusammenfassung und Darstellung von Daten befasst. Darüber hinaus stellt die Statistik den empirischen Wissenschaftlern Verfahren zur Verfügung, mit denen objektive Entscheidungen über die Brauchbarkeit von wissenschaftlichen Hypothesen getroffen werden können.”

Was bedeutet nun Analyse genau? Analysis (also Analyse im Deutschen) wird im Merriam-Webster als

“a detailed examination of anything complex in order to understand its nature or to determine its essential features; a thorough study, doing a careful analysis of the problem”

definiert, wobei dann Analytics

“the method of logical analysis”

ist. Manche interpretieren daraus, dass sich Analysis mit der Vergangenheit beschäftigt und Analytics mit dem “Warum?” und der Zukunft, aber dies ist keine allgemeingültige Sicht. Eine andere Sicht ist die, dass sich Analytics keiner Null-Hypothesen bedient und stattdessen Machine Learning verwendet, um etwas Sinnvolles aus Daten zu gewinnen. Auch diese Ansicht ist nicht abgesichert. Man könnte Analytics auch als Mini-Statistik verstehen, in der nur Teilbereiche angewandt werden, die in der Geschäftswelt am meisten benötigt werden. Schließlich kann man Statistik studieren, und nicht jeder kann sich als Statistiker bezeichnen. Der Begriff Analytics hingegen ist weder definiert noch geschützt. Jeder kann sich als Analytics-Experte bezeichnen.

Der letzte zu klärende Begriff ist Data Science. Auch hier existiert keine allgemein akzeptierte Definition, aber man könnte hierunter die Überschneidung beziehungsweise den interdisziplinären Einsatz von Data Mining, Datenanalyse und Machine Learning verstehen. Provost und Fawcett beschreiben Data Science wie folgt [@provost2013]:

Data science involves principles, processes, and techniques for understanding phenomena via the (automated) analysis of data.

Provost und Fawcett verwenden die Begriffe „Data Science“ und „Data Mining“ fast austauschbar, wobei Data Mining in ihrer Definition nicht erwähnt wird. Gleichzeitig verweisen sie darauf, wie jung dieses Feld noch ist und die heutigen Data Scientists in mehreren Gebieten bewandt sein müssen:

“The particular concerns of data science are fairly new and general principles are just beginning to emerge. The state of data science may be likened to that of chemistry in the mid-19th century, when theories and general principles were being formulated and the field was largely experimental. Every good chemist had to be a competent lab technician. Similarly, it is hard to imagine a working data scientist who is not proficient with certain sorts of software tools.”

Eine weitere Definition stammt von John W. Foreman:

“Data science is the transformation of data using mathematics and statistics into valuable insights, decisions, and products.”

Um Daten automatisiert auswerten zu können, wird ein Statistik-Grundwissen vorausgesetzt. Eine Schnittmenge zwischen dem klar definierten Bereich der Statistik und dem noch schwammigen Bereich Data Science ist also erkennbar.

Veranstaltungen zu diesem Thema: