Dolmetschen durch KI

Dez, 2023

Anja Peschel

Immer häufiger werde ich gefragt, ob meine Arbeit als Dolmetscherin bald von Künstlicher Intelligenz (KI) übernommen werde. Schließlich sind Dolmetscher und Übersetzer inzwischen auf jeder Liste der vom Aussterben bedrohten Berufeganz oben zu finden. Ich gebe zu, das verunsichert, und gleichzeitig finde ich die Fortschritte der letzten Jahre einfach faszinierend. Was kann die KI also wirklich?

Kürzlich durfte ich einer Präsentation des KI-Dolmetschsystems teilnehmen, das derzeit als „das beste“ im Markt bezeichnet wird. Der Name der Software wird hier bewusst nicht genannt.

Das Setup

Das System wurde auf die Fähigkeit getestet, einen Vortrag simultan vom Deutschen ins Englische, Französische, Spanische und Italienische zu dolmetschen. Beim ausgewählten Vortrag handelte es sich um den Leitfaden einer Hauptversammlung, also einen vorformulierten Text, der außerdem akzentfrei und sauber von einem Dolmetscher vorgetragenen wurde. Als Zuhörerin konnte ich sowohl Untertitelung in jeder der Sprachen einstellen als auch die Verdolmetschung als Tonspur anhören.

Der Output:

Als Dolmetscherin für Englisch interessierte ich mich besonders für den Output des englischen KI-Dolmetschers. Da für die Sprachkombination Deutsch-Englisch deutlich mehr Trainingsdaten zur Verfügung stehen als für die anderen getesteten Sprachkombinationen, kann man davon ausgehen, dass hier im Vergleich das beste Ergebnis möglich ist.

Es war eine männliche Stimme mit Britischem Akzent gewählt worden – soweit, so gut. Doch schon kurz nach Beginn wurde das Zuhören extrem anstrengend. Die KI will kein Wort auslassen, was allerdings nur zu bewerkstelligen ist, wenn die Sprechgeschwindigkeit entsprechend hoch ist. Dabei war der zeitliche Abstand zum Originalredner deutlich größer als bei „Humandolmetschern“. Zusätzlich zur immensen Geschwindigkeit führten fehlende Pausen zwischen Sätzen sowie eingefügte Pausen mitten in Sinneinheiten zu Verwirrung. Betonungen, rhetorische Pausen, Variationen in der Sprechgeschwindigkeit und Lautstärke fehlten gänzlich. Dies sind alles Mittel, die eine gesprochene Rede verständlich machen. Nachdem ich den ersten Schwindel überwunden hatte, begann ich, mich auf den Inhalt zu konzentrieren. Dieser war stellenweise zu erahnen, mehr aber auch nicht. Neben echten Lachern wie „we have to put a tooth on“ (na, wer errät’s?) waren über weite Strecken aneinandergereihte Worte zu hören, aus denen ich vergeblich versuchte, einen Sinn zu erschließen.

Der Prozess

Die Verdolmetschung mittels KI erfolgt in einzelnen Schritten:

Schritt 1: Spracherkennung: Obwohl in diesem Fall akzentfrei und gut verständlich vorgetragen wurde, gelang es der automatischen Spracherkennung nicht, alles richtig zu erfassen. Das ist ein nicht zu vernachlässigendes Problem, da das Ergebnis der Spracherkennung als Grundlage für den nächsten Schritt verwendet wird: die maschinelle Übersetzung.

Schritt 2: Maschinelle Übersetzung: Bei der maschinellen Übersetzung à la DeepL gibt es einige grundlegende Probleme, die auch hier sichtbar werden:

Schritt 1: Spracherkennung: Obwohl in diesem Fall akzentfrei und gut verständlich vorgetragen wurde, gelang es der automatischen Spracherkennung nicht, alles richtig zu erfassen. Das ist ein nicht zu vernachlässigendes Problem, da das Ergebnis der Spracherkennung als Grundlage für den nächsten Schritt verwendet wird: die maschinelle Übersetzung.
Schritt 2: Maschinelle Übersetzung: Bei der maschinellen Übersetzung à la DeepL gibt es einige grundlegende Probleme, die auch hier sichtbar werden:
- Die Maschine ist Generalist. Bei unserem Probevortrag handelte es sich um eine Hauptversammlung, es ging also um Wirtschaftsthemen. Die KI hat jedoch keine Ahnung, ob „Bank“ hier mit „bank“ oder „bench“ zu übersetzen ist – sie ist also „kontextblind“.
- Die Maschine übersetzt JEDES WORT, aber nicht den Sinn. Gerade bei der gesprochenen Sprache gibt es viele Redundanzen, manchmal verbessern Redner sich selbst, sie sprechen nicht immer grammatikalisch korrekt. Die Maschine nimmt jede dieser Schleifen mit. Menschliche Dolmetscher bügeln solche Dinge aus, so dass am Ende der Inhalt und die Intention vermittelt werden.
Schritt 3: Maschineller Output. Eine angenehme Stimme und den gewünschten Akzent zu wählen scheint kein Problem zu sein. Doch gerade bei einem Vortrag gibt es viele sprachliche Mittel, die sich nicht auf Wortebene abspielen: Eine angemessene und auch wechselnde Sprechgeschwindigkeit, Pausen, Intonation, lauter und leiser Sprechen – nichts davon kann die Maschine leisten.

Das Urteil:

Mit dem heutigen Stand kann ein KI-Dolmetscher nicht einmal für einfache, wenig kritische Fälle sinnvoll eingesetzt werden. Obwohl ein denkbar einfacher Test durchgeführt wurde, der keine Herausforderungen in Form eines starken Akzents, grammatikalischer Fehler oder kultureller Besonderheiten enthielt, war der Output schlicht nicht zu gebrauchen. In den Sprachen Französisch, Italienisch und Spanisch war das noch extremer als im Englischen. Ein so schlechtes Ergebnis hatten auch die vielen teilnehmenden Kolleginnen nicht erwartet.

Die Demonstration hat gezeigt, wie komplex die Dolmetschleistung durch Menschen ist, und dass diese Leistung zwar auf Worten als Bausteinen basiert. Doch das beste Baumaterial kann nur dann sinnvoll genutzt werden, wenn wir verstehen, was wir bauen. Dazu gehört der Kontext, in dem gesprochen wird, das kulturelle Umfeld, wer spricht, für wen gesprochen wird und vieles mehr.

Als Dolmetscherin übersetze ich nicht nur die Worte, ich bin eine Art Filter, der dafür sorgt, dass der Output so ankommt, wie der Redner es beabsichtigt hat. Natürlich muss ich meine Vokabeln kennen, aber ich weiß auch, wo und mit wem ich kommuniziere und tue dies angemessen. Anders gesagt ist das Dolmetschen eine zutiefst menschliche Tätigkeit.Mir ist bewusst, dass dies eine Momentaufnahme ist. Es werden Unsummen investiert, um die Technologie weiterzuentwickeln. Ich habe keine Zweifel daran, dass wir in den nächsten Jahren einige Fortschritte sehen werden. Aber der Weg ist noch weit.

Wenn Sie für Ihr nächstes Event gerne menschliche Dolmetscher buchen möchten, freuen wir uns über Ihre Kontaktaufnahme.