Eine kleine Daten-Geschichte

Vom Zählen übers Messen zum Ergebnis

Daten wurden eigentlich schon immer gesammelt, auch wenn sie nicht als solche bezeichnet wurden. Das Wort „Datum“ kommt vom lateinischen Wort dare und bedeutet in diesem Fall „gegeben“ oder das „Gegebene“. Der Singular wäre eigentlich Datum, aber da die Deutschen damit eher ein Kalenderdatum meinen, wird der Singular für Daten entweder vermieden oder eine Konstruktion verwendet wie „Datenwert“. „Gegeben“ wurde übrigens damals ein Schriftstück, der Inhalt dieses Schriftstücks wurde zu dem Gegebenen. Daher kommt zum einen heute das Datum, das über einem Brief steht („gegeben am soundsovielten in soundso“, zum anderen ist dadurch auch das Wort „Datei“ entstanden, ein Kofferwort aus „Datum“ und „Kartei“).

Doch am Anfang wurde nichts gegeben, sondern einfach nur gezählt. Ein Bauer musste jeden Abend sein Vieh zählen, und hier wurden zum Beispiele Steine, für jedes Tier einer, gesammelt und morgens und abends abgeglichen. Natürlich wurde nicht nur das Vieh gezählt, auch Menschen wurden gezählt. Die Mutter aller Volkszählungen wird schon in der Bibel erwähnt. Tatsächlich existierten schon vorher Volkszählungen, und alle hatten das gleiche Ziel: Das Volk zu schätzen, um die Steuereinnahmen berechnen zu können. Datensammlungen bekamen also bereits früh einen negativen Beigeschmack für die Betroffenen. Das erklärt aber immer noch nicht, wieso das Wort „Daten“ im heutigen Kontext genutzt wird. Laut Rosenburg wurde der Begriff „data“ 1646 das erste Mal im Englischen genutzt für gegebene Quantitäten in mathematischen Problemen. Kurz zuvor war die Statistik als Disziplin zur Erfassung und Analyse von Daten geboren worden Die Konnotation der Daten änderte sich im Laufe des 18. Jahrhunderts von dem Gegebenen, also einem Fakt, zu dem Ergebnis eines Experiments oder einer Kalkulation.

Maschinelle Auswertung von Daten

Die Volkszählung in den USA um 1890 markierte einen Wendepunkt in unserer Geschichte der Daten, da das erste Mal Lochkarten verwendet wurden. Der deutschstämmige Hermann Hollerith ermöglichte es den Volkszählern, die für die Auswertung der großen Menge an Daten benötigte Zeit radikal zu reduzieren (von Jahren zu Wochen), indem weite Teile der Abfragen automatisiert wurden. Die Idee, Lochkarten zu nutzen, wurde übrigens durch die beiden Franzosen Falcon und Jacquard inspiriert, die Webstühle mit Holzbrettchen mit Löchern und später Lochkarten ausstatteten, so dass komplexe Muster automatisch gestaltet werden konnten (es ist nicht belegt, dass daraus der Weberaufstand entstand). Aus der Firma Hollerith entstand später IBM, eine Abkürzung für Industrial Business Machines. Neben Tabelliermaschinen, die Lochkarten auswerten konnten, waren auch andere Bürogeräte wie Locher im Angebot. Zu dieser Zeit stand vor allem das Zählen im Fokus.

Der erste programmgesteuerte Rechner war die Zuse Z3, fast gleichzeitig wurde in den USA der Mark I von IBM gebaut. Die Besonderheit hier ist, dass Programme ausgeführt werden konnten, es wurde also nicht mehr nur gezählt, sondern auch berechnet. Konrad Zuse wollte statische Berechnungen automatisieren, der Mark I unterstützte Forscher beim Manhatten-Projekt, das die Grundlage für die Atombombe war. Beide Systeme basieren auf Relais-Technik, die 1946 von der Röhrentechnik abgelöst wurde (UNIVAC, der erste kommerziell verfügbare Computer). Die ersten Rechner auf Basis von Transistoren entstanden Anfang der 50er Jahre, abgelöst wurden diese von integrierten Schaltkreisen in den 60er Jahren. Dadurch wurden Rechner das erste Mal so klein und günstig, dass sie nicht nur Großunternehmen zur Verfügung standen, sondern auch in Universitäten mehr Forschern zur Verfügung standen. Zur Einordnung: Der Zuse Z3 hatte eine Taktfrequenz von ca. 5 Hz und benötigte für eine Division 5 Sekunden. Der Univac benötigte dafür nur noch 3,9 Millisekunden bei einer Taktfrequenz 2.25 MHz (Mega = 1.000, der Univac war also 450 Mal schneller als der Zuse Z3, siehe hier eine Übersicht von Rechnern und deren Geschwindigkeiten, wobei nicht nur die Hz-Zahlen, sondern auch die MIPS, Millionen Instruktionen pro Sekunde, hinzugezogen werden). IBMs erster Transistor-Rechner schaffte 600.000 mal mehr MIPS als der Univac bei einem Drittel mehr MHz. Ohne in die Details zu gehen (verschiedene Prozessorarchitekturen behandeln Instruktionen anders) ist offensichtlich, dass Programme um ein Vielfaches schneller ausgeführt werden konnten. Je günstiger die Rechner wurden, desto größer war die Wahrscheinlichkeit, dass auch Wissenschaftler Zugang zu Rechnern bekamen, die nicht nur Atombomben bauen oder Raketen zum Mond schießen wollten.

Computer für alle

In den 70er Jahren entwickelte sich eine Szene von Bastlern, die sich auf Basis von Mikroprozessoren eigene Rechner bauten, daraus ist unter anderem Apple entstanden. In den 80er Jahren wurden die ersten Heimcomputer populär, gleichzeitig zogen Computer in immer mehr Unternehmen ein. Jeder konnte nun mit einem Computer arbeiten, der um ein Vielfaches schneller war als die ersten Großrechner der 50er und 60er Jahre und gleichzeitig nur wenige 1.000 DM kostete. Die steigende Verfügbarkeit von Computern für mehr Menschen bedeutete auch, dass Software entstand für immer mehr Anwendungen. War SPSS (Statistical Package for the Social Sciences, ein populäres Programm in der Statistik) im Jahr 1968 nur wenigen Anwendern vorbehalten, die Daten und Programme in Lochkarten stanzen mussten, kann das heutige IBM SPSS auf jedem PC laufen. Noch besser, anstatt über 3.000€ für eine Lizenz auszugeben, existieren Open Source-Alternativen wie R, die sich jeder kostenlos herunterladen und verwenden kann. Die Verfügbarkeit von Rechenzeit für jeden hat somit auch zu Anwendungen für jeden verholfen.

Heute ist jedes Handy schneller als die Rechner damals, und ein Raspberry Pi für 30€ verfügt über 4.744 MIPS bei 1 GHz. Gleichzeitig kostet er nur einen Bruchteil dessen, was ein Univac kostete (ca. 1.5 Millionen Dollar, wobei ein Dollar damals ungefähr so viel wert war wie heute 8 Dollar). Und nicht nur die Rechner wurden schneller und preisgünstiger, auch die Datenspeicher. Hatten die ersten Festplatten in der Größe einer Waschmaschinentrommel gerade mal 5 MegaByte Speicher im Angebot, so finden heute auf einem Scheckkarten-großen Speicher TeraBytes an Daten Platz. Dieser Speicher kann auch viel schneller gelesen werden als zum Beispiel die Festplatten und Bänder, die im 20. Jahrhundert verwendet wurden.

Würde man all diese Entwicklungen auf einem Zeitstrahl visualisieren, so würden schnell exponentielle Verläufe deutlich werden (selbst wenn Moore’s Law nicht mehr zu gelten scheint). Dieser kleine Ausflug in die Geschichte der Rechenleistungen und ihrer Entwicklung zeigt, wie schnell sich technischer Fortschritt entwickeln kann; exponentielle Entwicklungen sind für den Menschen ansonsten nur schwer nachvollziehbar.

Von Computerhirnen und Hackern

Hatten die Menschen zu Beginn des Computer-Zeitalters noch romantische Vorstellungen, was ein Computer für sie tun könnte (siehe unten die Aufnahme von 1968, und wenn man sich die Partnerbörsen heute ansieht, dann war France Gall gar nicht so weit entfernt), wuchs das Misstrauen in die zunehmende Computerisierung in den 1970er Jahren (siehe vor allem Bergmann 2009).

Der Computer war eine Black Box für die Mehrheit der Menschen, die keinen Zugang zu einem Computer hatten und erst recht nicht wussten, was wann und wie über sie gespeichert wurde. 1983 stellte zum Beispiel die Schufa komplett auf EDV um, und auch wenn jeder Auskunft über seine bei der Schufa gespeicherten Daten bekommen kann, so bedeutet das noch lange nicht, dass man diese Daten auch ändern könnte oder überhaupt versteht, welche Konsequenz die bei der Schufa gesammelten Daten für das eigene Leben haben können. Was bedeutet denn der Score von 93% genau? Wie kommt er zustande? Wie kann ich ihn ändern? Wo vorher in Unternehmen ein Kundenberater nach eigenem Ermessen eine Entscheidung fällen konnte, wurde dies nun durch ein anonymes System bewerkstelligt, was zu einem Gefühl der Machtlosigkeit führte.

Hinzu kam, dass die neue Computerwelt nicht so sicher war, wie die Betreiber zu glauben machen versuchten. Der Chaos Computer Club schaffte es zum Beispiel, der Hamburger Sparkasse einen sechsstelligen D-Mark-Betrag über das angeblich sichere BTX-System zu entwenden. Dabei ging es den Hackern nicht darum Geld zu klauen, sondern auf die fehlende Sicherheit des Systems hinzuweisen.

Foto von Groenewold, Elke, Creative Commons Lizenz

Die Volkszählung in Deutschland 1983 beziehungsweise 1987 tat ihr Übrigens dazu, das Misstrauen der Bevölkerung in das Sammeln von Daten zu fördern. Eigentlich sollte die Volkszählung 1983 stattfinden, dies wurde aber durch massive Proteste und ein wegweisendes Urteil des Bundesverfassungsgerichts verhindert. Die Proteste waren von einer breiten Allianz von Gruppierungen unterstützt, die gerade frisch in den Bundestag gekommenen Grünen ebenso wie die Jugendorganisation der FDP. Das Bundesverfassungsgericht stellte das Recht auf informationelle Selbstbestimmung als ein Grundrecht dar, so dass bei dem Entwurf der Volkszählung stark nachgearbeitet werden musste. Und selbst die dann 1987 stattfindende Volkszählung war von Protesten und Verweigerung begleitet (siehe zum Beispiel das Graffiti an einer Häuserwand in der Hamburger Hafenstraße). Mehr dazu im Abschnitt über Datenschutz.

Von Data zu Big Data?

Heute wird nicht mehr nur von Daten gesprochen, sondern gleich von Big Data, wobei die wenigsten verstehen, was Big Data eigentlich ist. Tatsächlich ist Big Data auch nicht wirklich definiert, in der Regel versteht man darunter aber Daten, die aufgrund ihrer Menge und/oder Struktur kompliziert zu verarbeiten sind.

Um den Unterschied deutlich zu machen: Die deutsche Version von Wikipedia kann als XML-Datei heruntergeladen werden und ist entpackt knapp 20 GigaByte groß. Eine Analyse der Daten kann mehrere Minuten dauern, bei komplexen Ab- fragen auch länger. Aber die XML-Datei von Wikipedia ist kein Big Data, selbst wenn sich knapp zwei Millionen Artikel in der deutschen Wikipedia-Datei befinden. Die Daten, die zum Beispiel ein Telekommunikationsprovider jeden Tag sammelt, können eher als Big Data aufgefasst werden, insbesondere wenn es um Kommunikationsdaten geht, die in Echtzeit automatisiert analysiert werden sollen. Die Komplexität von Daten, die Menge und ihre Prozessierungsgeschwindigkeit sind Faktoren, die Big Data ausmachen können, sofern es eine allgemein gültige Definition gäbe.

Weiter gehts mit Datenschutz.