BIG DATA und die neue Weltordnung
Prof. Klaus Mainzer, TU-München
Es sieht so aus, als ob heute diejenigen die Welt beherrschen, die über die besten Informationen, schnellsten Algorithmen und Computer verfügen. Vor dem Hintergrund einer totalen Digitalisierung und gigantischer Rechenkapazitäten entsteht die heutige Big Data-Welt. Welche Perspektiven eröffnen sich für eine neue digitale Wirtschafts-, Rechts- und Gesellschaftsordnung? Welche Chancen und Risiken bestehen? Welche Konsequenzen sind aus der NSA-Debatte für Deutschland zu ziehen, damit uns diese Welt der Daten, Computer und Automatisierung nicht aus dem Ruder läuft?
Anfang der 1950er Jahre waren die Computerpioniere noch der Auffassung, dass es in Zukunft weltweit einige wenige Superrechner geben wird, die alle anfallenden Rechenaufgaben lösen. Die Entwicklung kam, wie wir wissen, anders: In den 1980er zogen viele kleine PC (Personal Computer) in die Büros ein, die in den 1990er Jahren im Internet verbunden wurden. Damit entstanden Computernetze als Grundlage weltweiter Informations- und Kommunikationssysteme wie das World Wide Web (WWW). Unsere E-Mails werden in kleine Datenpakete zerlegt und über weltweit verteilte Routerknoten (je nach lokaler Belastung) verschickt, um beim Empfänger wieder zusammengesetzt zu werden. Wie in einem Computer hat dieses weltweite Computernetz ein gemeinsames Betriebssystem und eine gemeinsame Computersprache (z. B. Java), auf dessen Grundlage verschiedene Computerprogramme laufen können. Tatsächlich ist dieses weltweite Netzwerk selber ein „virtueller Computer“.
Die Einführung von Internet und WWW leitete eine erste digitale Revolution ein: Immer kleinere Geräte wie Mobilephones, Smartphones, Apps usw. erlauben eine weltweite Kommunikation der Menschen untereinander. Die zweite digitale Revolution erleben wir derzeit: Nicht nur Menschen kommunizieren untereinander, sondern über Funk- und Sensortechnologie auch die Dinge – das Internet der Dinge mit einer gewaltigen Produktion von Daten und Signalen.
Was treibt die Entwicklung der Big Data Welt an?
Seit den 1960er Jahren gibt das Mooresche Gesetz die Entwicklung der Rechenkapazität vor: Alle 18 Monate verdoppelt sich im Schnitt die Rechenkapazität bei gleichzeitiger Miniaturisierung und Verbilligung der Geräte. Wir sind auf dieser exponentiellen Kurve im Zeitalter der Petaflops (Peta=1015 Rechenschritte pro Sekunde) für Superrechner angelangt. Nach dem Mooreschen Gesetz wird diese Rechenleistung in den 2020er Jahren auch von kleinen Rechengeräten realisiert. Das bedeutet, dass dann z. B. ein Smartphone die Rechenkapazität unserer Gehirne simulieren kann. Bei gleichzeitiger Miniaturisierung der Transistoren werden wir an die Grenzen des atomaren Bereichs stoßen. Hier gelten dann die Empfindlichkeiten und Störungen der Quantenphysik. Dann wird man weiter sehen müssen, vielleicht mit Quantenrechnern. Jedenfalls ist diese Rechenleistung gewaltig.
Die dadurch produzierten Datenmassen führen zu Big Data. Auch hier sind wir im Peta-Zeitalter angelangt. Datenkonzerne wie Google setzen heutzutage täglich 24 Petabytes um, d. h. 6000x den Dateninhalt der US-Library. Die Datenmassen sind amorph, nicht nur strukturierte Nachrichten wie E-Mails, sondern Sensordaten von GPS und Mobil-Phones.
Sie können von herkömmlichen (relationalen) Datenbanken nicht bewältigt werden. Dazu bedarf es neuartiger Algorithmen wie die Google-Suchmaschine MapReduce (oder Hadoop in Java). Vereinfacht gesagt teilt dieser Algorithmus eine Datenmasse in Teilaufgaben auf („Map“), um sie parallel zu bearbeiten. Im nächsten Schritt werden die Teilergebnisse zum Gesamtresultat zusammengeführt („Reduce“).
Neu bei Big Data ist: Prognosen werden nicht statistisch aufgrund von repräsentativen Stichproben hochgerechnet, sondern alle Daten und Signale werden durchforstet, um Korrelationen und Muster zu erkennen. Anschaulich kann man sagen: Um die Nadel zu finden, brauche ich einen möglichst großen Heuhaufen, der total durchforstet wird.
Neu ist auch, dass wir die Inhalte der Nachrichten nicht kennen müssen. Ihre Bedeutung wird vielmehr massenhaft aufgrund von Metadaten gewonnen: Bei einer E-Mail sind das z. B. Absender und Empfänger, bei einem Mobilephone oder Automobil die Funksignale. So gelang es Google, nur aus den Mustern des Kundenverhaltens den Ausbruch einer Epidemie Wochen vor den Gesundheitsämtern vorauszusagen, die wie üblich Nachrichten und Meldungen von Krankheitsfällen abgewartet und statistisch hochgerechnet hatten.
Die Medizin ist ein anschauliches Beispiel:
Es zeigt, wie Big Data Wissenschaft unsere Lebenswelt verändert. Da sind zunächst die medizinischen Datenbestände: Im nächsten Jahr rechnet man damit, dass einzelne Patientenakten auf 20 Terabytes (Tera=1012) anwachsen. In den 2020er Jahren werden medizinische Datenbestände von insgesamt 90 Zettabytes (Zetta=1024) erwartet. Das medizinische Wissen wird unübersehbar: So gibt es heute bereits z. B. ca. 400 000 Fachartikel über Diabetes, die ein Arzt in einem Menschenleben nicht lesen kann. Dazu bedarf es intelligenter Suchmaschinen, um entsprechende Schlüsselinformation zu finden.
Um in Zukunft eine personalisierte Medizin möglich zu machen, müssen medizinische Daten bis auf die zelluläre und molekulare Ebene herunter berücksichtigt werden. Ein Mensch umfasst 2 x 1024 Moleküle. Bei 7 Milliarden Menschen werden also ca. 15 x 1033 Moleküle zu berücksichtigen sein. Selbst wenn wir redundante molekulare Abläufe vernachlässigen, sind es noch ca. 6 x 1017 Moleküle. Wenn wir (vereinfacht) pro Molekül 1 Bit rechnen (Molekül ein- oder ausgeschaltet), erhalten wir Zahlen, die im Kapazitätsbereich heutiger oder zukünftiger Superrechner liegen. Dazu bedarf es neuartiger Datenbanken wie z. B. SAP HANA („High Performance Analytic Application“), die auf schnelle Arbeitsspeicher zurückgreifen können („In-Memory-Technology“): Eine molekulare Krebsanalyse (Proteomik) von 15 Minuten reduziert sich damit auf 40 Sekunden, eine DNA-Sequenzierung von 85 Std. (ca. 3 ½ Tagen) auf nur 5 Std.
Das nächste zentrale Beispiel ist die Wirtschaft:
Dort können durch Big Data Mining blitzschnell Kunden- und Produktprofile vorausgesagt werden. So werden mit Big Data neue Geschäftsmodelle und Wertschöpfungsketten möglich: Die Besitzer von Daten verdienen durch Lizenzen des Datenverleihs. Dann gibt es den Verdienst durch Know How und Skills im Umgang mit Datenmassen und schließlich Mind Set, d. h. Verdienst durch neue Geschäftsideen mit Datenmengen.