Trotz Fortschritten in der Spracherkennung und -verarbeitung kann künstliche Intelligenz nicht klar denken. Sätze wie „Zwei Hunde werfen sich Frisbees zu“ sind für die KI völlig selbstverständlich und zeigen, dass der vermeintlichen Intelligenz der gesunde Menschenverstand fehlt.

Spracherkennung und -verarbeitung haben nicht zuletzt dank künstlicher Intelligenz große Fortschritte gemacht. Chat- und Nachrichtenroboter, automatische Übersetzer oder smarte Assistenzsysteme können selbstständig Sätze formulieren. Aber wie viel verstehen die vermeintlich intelligenten System von dem, was sie sagen, lesen oder hören?

Weniger als wir dachten, sagen Assistenzprofessor Xiang Ren und Doktorand Yuchen Lin von der Universität von Südkalifornien. In der Fachzeitschrift „Empirical Methods in Natural Language Processing“ („EMNLP“) beschreiben sie, dass künstliche Intelligenz „noch immer nicht über den gesunden Menschenverstand verfügt, der zur Generierung plausibler Sätze erforderlich ist“.

„Zwei Hunde werfen sich gegenseitig Frisbees zu“

Insbesondere testeten Ren und Lin die Fähigkeit der Modelle zur logischen Schlussfolgerung. Dabei stellten sie fest, dass „es eine große Lücke zwischen den derzeitigen Texterzeugungsmodellen und der menschlichen Leistungsfähigkeit gibt“. Ausgehend von einer Reihe gängiger Substantive und Verben kann die KI nur ansatzweise glaubwürdige Sätze erstellen, die ein alltägliches Szenario beschreiben. Obwohl die Sätze grammatikalisch korrekt waren, fehlte ihnen die Logik.

„[KI kann] einen Artikel schreiben, der für viele Menschen überzeugend sein mag, aber sie ahmt im Grunde genommen das nach, was sie in der Ausbildungsphase gesehen hat“, sagte Lin. Aus den Wörtern „Hund, Frisbee, werfen, fangen“ generierten hochmoderne Modelle zur Spracherzeugung die Sätze:

Ein Hund wirft ein Frisbee auf einen Fußballspieler. (GPT-2)

Ein Hund wirft ein Frisbee und ein Hund fängt es auf. (BART)

Zwei Hunde werfen sich gegenseitig Frisbees zu. (UniLM)

Ein Hund fängt ein Frisbee und wirft es einem Hund zu. (T5)

Künstliche Intelligenz kann nicht selbstständig denken

Was künstliche Intelligenz offenbar nicht weiß, ist, dass Hunde keine Daumen haben und damit weder greifen noch werfen können. Sich gegenseitig die Frisbees mit der Schnauze zuzuschieben, scheint indes dem Wort „werfen“ nicht gerecht zu werden, weshalb kein „normaler“ Mensch den Satz so bilden würde.

Menschen, antworteten auf dieselbe Aufgabe mit Sätzen wie:

Ein Hund springt, um einen geworfenen Frisbee zu fangen.

Der Hund fängt das Frisbee, wenn der Junge es wirft.

Ein Mann wirft das Lieblingsfrisbee seines Hundes weg, in der Erwartung, dass er es in der Luft auffängt.

Die Sätze der KI basieren vielmehr auf der Annahme, dass das Konzept „eine Person wirft ein Frisbee und ein Hund fängt es“ analog auf andere Wesen und/oder Dinge übertragen werden kann. Dies widerspricht jedoch dem gesunden Menschenverstand. Mit anderen Worten: Zum Sprechen braucht man mehr als nur das richtige Verständnis der Sprache.

Ohne Sprachverständnis und einer guten Portion Menschenverstand seien Chatbots und Sprachassistenten – trotz hochmodernen sprachlichen Modellen – anfällig für Misserfolge. Dies sei jedoch von entscheidender Bedeutung, wenn Roboter in menschlichen Umgebungen präsenter werden sollen. Auch Roboter müssten natürliche Szenarien in unserem täglichen Leben verstehen, bevor sie vernünftige Handlungen ausführen, um mit Menschen zu interagieren.

Schließlich erwartet man von einem Roboter, wenn man ihn um heiße Milch bittet, dass er weiß, dass man eine Tasse Milch möchte und nicht die ganze Packung“, so die Forscher.

Künstliche Intelligenz: Dümmer als der Datensatz erlaubt

Erst der gesunde Menschenverstand ermöglicht es, aus dem Grundwissen über die Welt Schlüsse zu ziehen – wie die Tatsache, dass Hunde sich keine Frisbees zuwerfen können. Auch nach jahrzehntelangen Bemühungen ist es KI-Forschern bislang nicht gelungen, dies zuverlässig in Sprachsysteme zu integrieren. Angeblich seien aber 90 Prozent der Sätze sinnvoll. Das wollten Ren und Lin genauer wissen.

„Der Mensch erwirbt die Fähigkeit, Sätze zu formulieren, indem er lernt, gängige Konzepte, die er in seiner Umgebung erkennt, zu verstehen und zu verwenden“, sagte Lin. „Der Erwerb dieser Fähigkeit wird als ein wichtiger Meilenstein in der menschlichen Entwicklung angesehen. Aber wir wollten testen, ob Maschinen wirklich eine solche generative Fähigkeit des gesunden Menschenverstandes erwerben können.“

Um verschiedene Maschinenmodelle zu evaluieren, entwickelten sie einen Datensatz aus 35.141 Konzepten, die mit 77.449 Sätzen verknüpft sind. Das Ergebnis überraschte selbst die Forscher. Auch das leistungsfähigste Modell erreichte nur eine Genauigkeit von 31,6 Prozent. Menschen erreichten bei identischen Daten und Ausgaben 63,5 Prozent.

„Wir waren überrascht, dass sich die Modelle nicht an das einfache Wissen des gesunden Menschenverstandes erinnern können“, sagte Lin. Für jeden – außer der KI – ist klar, dass „ein Mensch, der ein Frisbee wirft“, viel vernünftiger sein sollte als ein Hund, der dies tut. „Selbst das stärkste Modell T5 [kann] nach dem Training mit einem großen Datensatz immer noch dumme Fehler machen.“

Roboter bleibt (vorerst) Roboter

Bezüglich der angeblichen Leistungsfähigkeit bisheriger KI-Systeme sagten die Forscher, es scheine, als hätten frühere Tests die Modelle nicht ausreichend auf ihre Fähigkeiten im Bereich des gesunden Menschenverstands getestet und stattdessen das nachgeahmt, was sie in der Trainingsphase gesehen hätten.

„Frühere Studien haben sich in erster Linie auf den diskriminierenden gesunden Menschenverstand konzentriert“, sagte Ren. „Sie testen Maschinen mit Multiple-Choice-Fragen, bei denen der Suchraum für die Maschine klein ist – in der Regel vier oder fünf Kandidaten.“

Eine typische Einstellung für diskriminierende Tests des gesunden Menschenverstands ist zum Beispiel eine Multiple-Choice-Frage, die eine Aufgabe beantwortet: „Wo verwenden Erwachsene Klebestifte?“ A: Klassenzimmer B: Büro C: Schreibtischschublade.

Die Antwort lautet hier natürlich „B: Büro“. Selbst Computer können dies ohne große Mühe herausfinden. „Mit einer umfassenden Modellausbildung ist es sehr einfach, bei diesen Aufgaben eine gute Leistung zu erzielen“, erklärt Ren. Im Gegensatz dazu sei eine generative Aufgabe, bei der ein Modell gebeten wird, aus vorgegebenen Konzepten einen natürlichen Satz zu generieren, wesentlich offener.

Bis künstliche Intelligenz wirklich versteht, was sie sagt, geschweige denn als humanoide Wesen am Alltag teilnehmen kann, heißt es ab in die (Grund-)Schule. Ähnlich dem Notensystem haben Ren und Lin ein Bewertungssystem entwickelt, was verschiedene populäre Modelle können.

Die erreichte Punktzahl soll unter anderem Forschern dabei helfen, die Durchführbarkeit für zukünftige Projekte zu bestimmen. Bei 31,6 Prozent erreiche jedoch auch der Klassenbeste lediglich ein „mangelhaft“.

(Mit Material der Universität von Südkalifornien)