Für eine KI, die nur mit chinesischen Daten trainiert wurde, ist die ganze Welt China - denn selbstlernende Systeme sind nur so schlau wie ihre Daten. Ihre Herkunft bestimmt dabei maßgeblich das Handeln der KI – Vorurteile, Meinungen und Gewohnheiten eingeschlossen.

Big Data, maschinelles Lernen und künstliche Intelligenz (KI) sollen die Zukunft prägen. In welcher Art und Weise sie das tun, hängt zu großen Teilen an ihren Programmierern – und mit welchen Daten sie trainiert werden. Selbstlernende Systeme laufen dabei jedoch Gefahr, sich ihre eigene Welt zu erschaffen, in der es bestimmte Dinge, Zusammenhänge oder Menschen nicht gibt.

Ein Fahrschüler, der im Sommer das Fahren lernt, weiß, dass er im Winter entsprechend vorsichtig fahren sollte. Eine KI in der gleichen Situation und ohne gesunden Menschenverstand weiß jedoch überhaupt nichts vom „Winter“, geschweige denn von rutschigen Straßen und langen Bremswegen.

Ähnliches gilt beispielsweise für eine KI, die vorrangig mit Daten aus einem totalitären Regime wie China trainiert wird. Sie kennt weder Freiheit noch Privatsphäre und vielleicht nicht einmal Menschen anderer Hautfarbe. Für diese KI ist die ganze Welt wie China.

„Wenn Daten das neue Öl sind, dann ist China das neue Saudi-Arabien“

Fast alle Rohstoffe sind begrenzt – einschließlich Öl und Kundendaten. Ähnlich wie mit dem schwarzen Geld verhält es sich auch mit dem virtuellen Rohstoff. Wer die Daten beherrscht, beherrscht die Welt. Dabei sind hoch technisierte Länder wie Deutschland oder auch die USA im Nachteil, denn sie haben zu wenig Menschen, die Daten generieren können.

China hingegen hat mehr als viermal so viele Einwohner wie die USA – etwa 17 Mal so viele wie Deutschland – und kaum Datenschutz. Die staatlichen Überwachungsstellen können in Echtzeit Gesundheitsdaten sowie alle Bewegungen und Suchanfragen sammeln, speichern und auswerten. Ein solcher Datensatz ist einzigartig in der Welt. Das erkannte auch der ehemalige Präsident von Google China Kai-Fu Lee: „Wenn Daten das neue Öl sind, dann ist China das neue Saudi-Arabien“.

Es ist davon auszugehen, dass staatliche Unternehmen in China diese Daten zu einem Spottpreis erhalten, um damit KIs zu trainieren. Eine chinesische KI läuft dabei Gefahr „chinesisch“ zu denken und die ganze Welt als China zu betrachten. Eine derartig konditionierte KI würde dann auch außerhalb des KP-Regimes, beispielsweise in Deutschland, „chinesische“ Entscheidungen treffen und im Sinne der KPC handeln.

Doch auch Forscher und Unternehmen außerhalb Chinas laufen Gefahr, ihre KI „chinesisch“ zu erziehen. Es gibt auf der Welt keinen Datensatz, der ähnlich umfassend ist und das Verhalten der Menschen so detailliert widerspiegelt, sodass diese Informationen ein begehrtes Gut sind.

Zu gefährlich, um alle Szenarien zu provozieren

Dabei könnten insbesondere hoch spezialisierte Betriebe mit weltweit einzigartigen Produkten und Produktionsabläufen theoretisch auf eine andere Datenquelle zurückgreifen. Dominik Michels, deutscher KI-Wissenschaftler und digital-wirtschaftlicher Berater der Bundesregierung, sieht die Zukunft in unabhängigen, künstlich erzeugten Daten.

Möchte man beispielsweise die Schadensbewertung der KFZ-Versicherung automatisieren, um gegebenenfalls eine KI anhand eines Bildes den Schaden begutachten lassen, braucht man nach dem klassischen Ansatz unzählige Unfalldaten. Eine solche KI gibt es bereits, in China, wo 200 Millionen Autos fahren. Aufgrund der Vielzahl der Schäden und Fahrzeugtypen reichen jedoch weder die Daten auf deutscher noch auf europäischer Ebene, erklärte Michels im Interview mit der „Welt“.

Um beim Beispiel der KFZ-Versicherung zu bleiben: Die meisten Unfälle sind eher harmlos, sodass dieser Bereich recht gut aus der Wirklichkeit modelliert werden kann. Doch auch Unfälle mit Total- oder Personenschaden müssten für alle Automarken, – typen und Baujahre erfasst werden. Derart riskante Fahrsituationen „möchte man aus Sicherheitsgründen auch nicht provozieren,“ so Michels. Abhilfe könnten synthetische Daten schaffen. Weiter sagte er:

Viele Prozesse [in der deutschen Wirtschaft] sind bis ins Detail verstanden […] Basierend darauf ließen sich digitale Modelle entwickeln, die diese Vorgänge geeignet abbilden. Damit haben wir die ideale Expertise, um sogenannte deutsche „synthetische Daten“ zu erzeugen und darauf basierend KI-Lösungen zu entwickeln.“

Synthetische Daten simulieren eine neue Welt

„Überall dort, wo viel Fachkompetenz vorhanden ist, lassen sich mittels algorithmischer Verfahren relevante Daten synthetisieren“, sagte Michels. Über dieses Wissen verfüge die deutsche Wirtschaft reichlich.

Das Modell der künstlich erzeugten Daten hat gegenüber den Daten aus China zwei entscheidende Vor- und einen Nachteil. Einerseits beinhalten synthetische Daten keine persönlichen Informationen, sodass niemand um seine Privatsphäre oder Freiheit fürchten muss. Außerdem können Daten für spezielle Szenarien erstellt werden, ohne dass man ein Fahrzeug von der Herstellung bis zur Verschrottung ständig überwachen muss und Unmengen unbrauchbarer Daten aufzeichnet.

Darin liegt jedoch auch der große Nachteil. Während in China dank Sozial-Kredit-System und Totalüberwachung alle Bereiche des Lebens lückenlos aufgezeichnet werden, müssen synthetische Daten für jeden Anwendungsfall neu erzeugt werden: Für die Schadensbewertung der KFZ-Versicherer, für den Verschleiß bestimmter Autoteile oder auch die Nutzungsgewohnheiten von Fahrern unterschiedlicher Fahrzeugtypen. In China sind alle diese Daten bereits im Datensatz enthalten.