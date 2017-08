«Herrlich, plump Buck Mulligan kam aus dem Treppenhaus, Mit einer Schüssel Schaum, auf dem ein Spiegel und ein Rasiermesser lag Gekreuzt.» Dieser erste Satz des Romans «Ulysses» von James Joyce ist eigentlich Weltliteratur. Doch was Google Translate in der deutschen Übersetzung daraus macht, hat mit Literatur nicht mehr viel zu tun und gleicht eher einer Verhunzung der deutschen Sprache. Der Satz müsste heissen: «Stattlich und feist erschien Buck Mulligan am Treppenaustritt, ein Seifenbecken in Händen, auf dem gekreuzt ein Spiegel und ein Rasiermesser lagen.»

Zugegeben: Joyces 987 Seiten umfassendes Monumentalwerk ist auch für menschliche Übersetzer keine leichte Kost. In der Joyce-Rezeption gibt es Streit, ob man lautmalerische Tendenzen etwa bei dem Satz «Pigeons roocoocooed» mit «Tauben giiiirrrrten» oder «wo Tauben ruckedieguh machten» übersetzt. Trotzdem ist die Unbrauchbarkeit der maschinellen Übersetzung offenkundig. Auch der Romanbeginn von Günter Grass› «Der Butt» («Ilsebill salzte nach»), der 2007 von der Initiative Deutsche Sprache und der Stiftung Lesen zum schönsten ersten Satz in der deutschsprachigen Literatur gekürt wurde, ergibt in der englischen Übersetzung in Google keinen Sinn. Lapidar heisst es: «Ilsebill salty.» Ilsebill salzig. Die literarische Qualität scheint im Räderwerk der Maschine zerrieben zu werden. Es ist schon erstaunlich: Die Computer schlagen den Menschen im Schach, Go und Poker, beim Übersetzen von einer Sprache in die andere stümpern sie aber. Woher kommt das?

In Zeitungsartikeln funktioniert es

Dabei «können» Computer Sprache. So gut, dass der Mensch es meist nicht merkt. Computerprogramme («Roboterjournalisten»), die in Zeitungsredaktionen wie der «Los Angeles Times» oder der Nachrichtenagentur AP zum Einsatz kommen, bauen statistische Daten in vorgefertigte Textschablonen (sogenannte Templates) und basteln daraus druckreife Artikel. Börsenberichte können sie sehr gut, auch im Sport sind sie da, weil die Amerikaner Sportarten lieben, die statistisch gut erfassbar sind: Um die Baseball- oder Basketballdaten herum konstruieren sie unfallfrei und durchaus professionell anmutende Berichte. Den Lesern scheinen sie zu genügen. Vor allem merkt der Leser häufig keinen Unterschied zwischen computergenerierten Texten und solchen aus Menschenhand, weshalb Branchenexperten eine Kennzeichnungspflicht für Robotertexte fordern. Wie aber kommt es, dass Computer in freier Übersetzung, wenn sie also vom Skript abweichen, ein solches Kauderwelsch produzieren?

Eine Erklärung könnte darin liegen, dass menschliche Sprache primär der Kommunikation, der zwischenmenschlichen Unterhaltung dient. Menschliche Sprachen sind deshalb in mehreren Belangen nicht perfekt. Und was Computer nicht so gern haben: Sie sind extrem kontextabhängig. Die Sprechsituation spielt eine grosse Rolle, sowohl die inner- wie auch die aussertextliche.

Philosophen haben sich beklagt über die «unpräzise» Alltagssprache und schlugen vor, man solle sich um eine «ideale Sprache» bemühen. Dabei dachte man an die «formalen Sprachen», vor allem an die Mathematik. Alle Zeichen sind wohldefiniert, die Bedeutungen klar; die Beziehungen zwischen den einzelnen Zeichen folgen präzisen Regeln. Der Modellfall sind mathematische Operationen wie: 5 + 2 = 7. Demgegenüber sind natürliche Sprachen ziemlich chaotisch. Sie haben auch mehr Ebenen, die man beim Verstehen auseinanderhalten muss: Laute – Silben – Wörter – Sätze. Man versucht zwar, die Regeln einer Sprache in einer Grammatik zu formulieren, aber da wimmelt es von Ausnahmen – auf allen Ebenen, aber auch dazwischen. Natürliche Sprachen sind so vielfältig, dass sie beim Sprechen meistens mehr erlauben, als dem Verstehen guttut.

Sprache ist eine grössere Welt

Der Informatiker Boris Katz, der die InfoLab Group am MIT Computer Science and Artificial Intelligence Laboratory leitet und mit seiner Forschung zur Entwicklung von Apples Sprachsteuerung Siri beitrug, sagt im Gespräch: «Ich denke nicht, dass die menschliche Sprache einfach programmiert werden kann. Sprache ist unendlich komplexer als Spiele wie Schach, Go oder Poker, weil Sprechen offen ist, mit unbestimmtem Ende. Wir kreieren ständig neue Wörter und Ausdrucksformen, sogar neue syntaktische Konstruktionen, und jeder von uns hat die Fähigkeit, einfach einen Satz zu bilden, den noch nie jemand zuvor gehört oder gelesen hat.» Die gegenwärtigen KI-Techniken seien nur dazu geeignet, Strukturen und Muster in Datensätzen zu identifizieren, ohne zu verstehen, was diese Daten eigentlich aussagen. «Diese Systeme funktionieren, indem sie grosse Mengen an Trainingsdaten analysieren, zum Beispiel Satzpaare auf Englisch und Deutsch zusammenzufügen», erklärt Katz. «Nach der Trainingsphase wird das KI-System versuchen, zu generalisieren, was es gelernt hat, um die Übersetzungsaufgabe anhand von neuen Beispielen durchzuführen.» Google Translate würde einen «ordentlichen Job» bei geläufigen Sätzen machen, aber schlecht bei Äusserungsformen abschneiden, die sich von dem unterscheiden, was das System zuvor gesehen hat.

Offensichtlich wurde Googles Übersetzungsdienst noch nicht mit den Romanen von James Joyce «gefüttert». Die Texte von Joyce distanzieren sich gewollt vom «Geläufigen», sie «rechnen» mit der «Assoziationslust» der Leser. Sie spielen mit lautlichen Anklängen, mit ähnlich klingenden Wörtern oder Wendungen, die man zum Beispiel wörtlich interpretieren kann und so zu neuem Verständnis kommt.