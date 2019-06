Es ist kein Wunder, dass manche Menschen Angst vor der Zukunft haben und befürchten, dass Roboter und KI irgendwann die Weltherrschaft an sich reißen könnten. Schon heute kann künstliche Intelligenz viel mehr, als wir ihr zutrauen.

Es steht ihm ins Gesicht geschrieben

„Speech2Face“ (= „Sprache zu Gesicht“) ist ein Projekt des Massachusetts Institute of Technology (MIT) mit beängstigenden Fähigkeiten. Die Forscher um Tae-Hyun Oh haben einen Algorithmus erschaffen, der anhand einer kurzen Stimmprobe auf das Gesicht der sprechenden Person schließen kann.

Mittels Millionen von YouTube-Videos habe man die künstliche Intelligenz darauf trainiert, charakteristische Muster in Stimmproben zu erkennen und mit den entsprechenden physikalischen Merkmalen zu verknüpfen. Im Laufe der Forschung kam man dann zu dem Punkt, an dem die Software überraschend treffsicher das Gesicht eines Sprechers rekonstruieren kann. Und das allein anhand eines kurzen Tonausschnitts.

Foto: Screenshot | Speech2Face „Speech2Face“ kann anhand bestimmter Stimmmuster auf charakteristische Gesichtszüge der Sprecher, einschließlich Geschlecht, Alter und Herkunft, schließen.

Der „Speech2Face“-Algorithmus verknüpft typische Merkmale wie Alter, Geschlecht, Herkunft sowie Haut- und Haarfarbe mit bestimmten Stimmmustern. Die ausgegebenen Bilder sind bisher eher durchschnittlich. Dennoch ist es erstaunlich und erschreckend zugleich, wie genau die Software bestimmte Merkmale berechnet und wiedergibt.

Laut den Forschern ist es bislang nicht möglich, exakte Bilder einzelner Personen anhand ihrer Stimme zu erstellen, und nicht immer stimmt das virtuelle Gesicht mit dem tatsächlichen Aussehen der Person überein. Auch zeichnet die Software völlig unterschiedliche Bilder ein und derselben Person, wenn sie ihr zum Beispiel auf Englisch oder Chinesisch „zuhört“.

In einem vorab veröffentlichtem Artikel geben die Forscher jedoch selbst zu bedenken, dass es „eine Reihe von ethischen Überlegungen [gibt, die] aufgrund der potenziellen Empfindlichkeit von Gesichtsinformationen explizit zu diskutieren“ sind. Sie warnen vor möglichen Folgen – und Anwendungsgebieten – ihrer Software.

Künstliche Intelligenz erweckt Mona Lisa zum Leben

Ebenso weitreichende Diskussionen könnte die neueste Errungenschaft des Samsung-AI-Labors mit sich bringen. Bereits 2017 ermöglichte es die „Deepfake“-Software, Kopf und Gesicht einer Person auf den Körper einer anderen zu montieren – für ein Video. Lediglich der Arbeitsaufwand war zu groß, als dass es jeder einfach so hätte tun können. Um ein realistisches Video zu erstellen, benötigt Deepfake teilweise tausende Einzelbilder oder Videos beider Personen.

Samsungs Forschungen gehen weit darüber hinaus. Der neue Algorithmus kann anhand weniger Bilder ein Video einer Person erstellen.

Damit ist es theoretisch möglich, jede beliebige Person der Welt zum Leben zu erwecken, jeden und zu jeder Zeit. Wie beeindruckend die künstliche Intelligenz arbeitet, zeigt folgendes Video – mit einer lebendigen Mona Lisa. Auch Marilyn Monroe oder Albert Einstein blieb die Video-Bearbeitung nicht erspart.



Um einzelne Fotos oder Portraits und Gemälde zum Leben zu erwecken, erkennt die Software nicht das gesamte Gesicht, sondern lediglich die Kerngeometrie, sodass die Vorlage für die Bilder eher wie eine kindhafte Skizze mit Augen, Nase, Mund und Kinn aussehen. Anhand der entsprechenden Landmarken in einem Video ist die KI fähig, jedes beliebige Gesicht auf eine andere Person zu setzten – anhand eines einzigen Bildes.

Natürlich steigt die Authentizität des Videos mit der Anzahl der Vorlagebilder. Bei einem Bild kann die Software einen Glückstreffer landen oder aber meilenweit daneben liegen. Mit acht Bildern sind die erstellten Videos deutlich besser.

Und mit 32 Bildern als Vorlage sind sie auf den ersten Blick nicht von der Originalperson zu unterscheiden. Die Möglichkeiten einer solchen Software sind nahezu grenzenlos – ebenso wie die Risiken.

Kindliche Skizzen mit Siegchancen für das „Foto des Jahres“

Geradezu harmlos wirkt im Gegensatz dazu „GauGAN“, eine experimentelle Software des Grafikkartenspezialisten Nvidia. Sie verwandelt kindliche Skizzen in Echtzeit in fotorealistische Bilder. Benutzer müssen – wie in Microsoft Paint – lediglich ein paar farbige Linien und Flächen zeichnen, die Software füllt die Flächen mit Landschaften.

Flüsse, Berge oder Wälder erkennt die Software anhand der verschiedenen Farben und ergänzt entsprechende Motive. Einschließlich der Reflexionen im See oder der Gischt eines Wasserfalls.

KI kann erschreckend einfach Fotos und Videos manipulieren oder fälschen. Selbst wenn heute ein überzeugendes Video von Nessi durch die Medien gehen würde, steht die Frage, ob es echt ist. Geschweige denn, ob es sich überhaupt um Loch Ness handelt und nicht um irgendeine rudimentäre Skizze, die mittels KI in eine realistische Landschaft verwandelt wurde.

All diese Erfindungen haben auch etwas Gutes. Mit dem steigenden Bewusstsein, wie einfach man heutzutage manipuliert werden kann, wächst auch die Aufmerksamkeit vieler Menschen, sodass sie sich am Ende eben doch nicht täuschen lassen. (ts)