Sprachassistenten (Siri, Alexa, etc.) und Übersetzungstools (DeepL, Google Translate, etc.) ermöglichen eine völlig neue Dimension der Kommunikation: Sowohl über Sprachgrenzen hinweg als auch an der Mensch-Maschine-Schnittstelle. Sei es Englisch, Deutsch, Japanisch. Sei es gesprochene Sprache oder textbasierte Kommunikation. Eine Art der Kommunikation wird allerdings von diesen leistungsfähigen Sprachmodellen noch nicht erfasst: Die Gebärdensprache.

Die Bedeutung von Gebärdensprache ist durchaus hoch. Gemäß WHO gelten 430 Millionen Menschen als gehörlos oder schwerhörig. Das entspricht einem Anteil von 5,5 Prozent (!) der Weltbevölkerung. Es gibt natürlich bereits Projekte und Unternehmen, Computern die Gebärdensprache beizubringen. Diese Projekte sind bislang aber noch weit von dem Reifegrad entfernt, den etwa ein Sprachassistent wie Alexa oder ein Übersetzungstool wie DeepL aufweist. Die Gründe hierfür sind vielfältig.

Herausforderungen bei der Entwicklung einer KI-basierten Lösung zur bi-direktionalen Übersetzung von Gebärdensprache

Zunächst sollte man sich vor Augen führen, dass es eine hohe Vielfalt an Gebärdensprachen gibt. Es gibt weltweit mehrere hundert; die Amerikanische Gebärdensprache zählt als am weitesten verbreitet. Jede Sprache hat ihre eigene Grammatik, Idiome und Dialekte. Wiederum wie bei gesprochenen Sprachen erfassen die starren Regeln der Grammatikbücher nicht wirklich die Feinheiten des täglichen Gebrauchs. Einzelne Zeichen können Kurzschrift für komplexe Ideen sein. Wie Sprecher nehmen Gebärdende oft Abkürzungen, wie z.B. die Darstellung von zweihändigen Zeichen mit einer Hand. Sie setzen Bezugspunkte innerhalb ihres Gebärdenraums, die für die Bedeutung entscheidend sein können. All dies richtig zu interpretieren ist viel schwieriger als das Erkennen von gesprochenen Silben oder geschriebenen Buchstaben.

Aus dem Vorgenannten dürfte klarwerden, dass die Erfassung von Gebärden im dreidimensionalen Raum eine nicht zu unterschätzende Herausforderung bedeutet (während für das Aufzeichnen von gesprochener Sprache ein einfaches Mikrophon ausreicht). Viele sogenannte Lösungen nutzen beispielsweise haptische Handschuhe, die die Fingerbewegungen des Trägers bzw. die Handformen erfassen. Andere Lösungen nutzen am Körper getragene Kameras. Es ist nachvollziehbar, dass diese technologischen Lösungen als aufdringlich empfunden werden. Beide verlangen von den Nutzern, dass sie sich an die Bedürfnisse von Hörenden anpassen. Die Erkennung der Handform ist zwar nützlich, kann aber nicht die gesamte Komplexität der Gebärdensprache bewältigen, die auch auf Gesichtsausdrücken und Körperbewegungen beruht.

Ein ungarisches Unternehmen, SignAll, das zu den führenden Anbietern von Produkten im Markt zählt, bietet eine Lösung, die Gebärden der Amerikanischen Gebärdensprache in geschriebenes Englisch übersetzen kann. Dazu müssen jedoch drei Kameras auf einen Gebärdenden gerichtet werden, der zudem spezielle Handschuhe zur Bewegungsverfolgung trägt. Für die Zukunft arbeitet SignAll an einem Produkt, das mit einer einzigen Kamera auf einem Smartphone funktioniert.

Eine zentrale Herausforderung besteht in der Generierung ausreichend großer annotierter Korpora, um KI-Algorithmen zu trainieren. Der Stand der Dinge wird durch folgende Zahl verdeutlicht: Eine Studie, die von einem Team der Computerfirma Microsoft geleitet und 2019 veröffentlicht wurde, schätzt, dass ein typischer öffentlich verfügbarer Korpus einer gesprochenen Sprache aus etwa einer Milliarde Wörtern von bis zu 1.000 verschiedenen Sprechern besteht. Ein vergleichbarer Datensatz in einer Gebärdensprache könnte weniger als 100 000 Zeichen von nur zehn Personen enthalten. Eine der größten Datenbanken zur Amerikanischen Gebärdensprache enthält 300 000 kommentierte Videos von 100 Anwendern, mit über 3 000 Gebärden. Neben einer großen Anzahl braucht ein guter Korpus auch Vielfalt. Das bedeutet Gespräche zwischen Muttersprachlern mit unterschiedlichen Hintergründen, Dialekten und Sprachkenntnissen. Da Gehörlose häufiger körperliche Behinderungen haben als Nicht-Hörende, ist es wichtig, auch Menschen mit eingeschränktem Bewegungsfluss zu repräsentieren.

Einige Zahlen zum „Trainingsmaterial“ für Gebärdensprache in Deutschland: Thomas Hanke, Forscher an der Universität Hamburg, hat zusammen mit seinen Kollegen eine Gebärdensprachbibliothek mit rund 560 Stunden Konversationen zusammengestellt. Das Sammeln von Daten ist allerdings der einfache Teil. Computer sind langsame Lerner und müssen explizit darauf hingewiesen werden, was jedes Beispiel bedeutet. Dazu muss alles kommentiert werden – jede Bewegung, jeder Gesichtsausdruck und jede feine Betonung. Nach acht Jahren hat Dr. Hanke gerade einmal 60 Stunden annotiertes Videomaterial.

Bei der Generierung von Videomaterial mit Gebärdensprache kommt die Hürde des Datenschutzes bzw. der Privatsphäre hinzu: Die Erfassung von Gebärdendaten erfordert die Aufzeichnung der Gesichter der Teilnehmer, nicht nur ihrer Stimmen. Einige Projekte denken darüber nach, Gesichtsfilter zu verwenden oder Gesichter durch künstlich erzeugte Alternativen zu ersetzen. Dabei kommt es jedoch zum Verlust bei der Qualität der Daten.

Ein abschließender Punkt: Wenn man Text in Gebärdensprache übersetzen möchte, dann stößt man auf folgende Schwierigkeiten. Der Standardansatz ist die Verwendung von computergenerierten Avataren. Aber dieser Ansatz birgt das Risiko des „Uncanny Valley Syndroms“. Dieses Konzept beschreibt eine Beobachtung aus der Computergrafik, dass künstliche Menschen gerade so weit von der Echtheit entfernt sind, dass sie stattdessen unheimlich und verstörend wirken.

Ausblick: Europäische Projekte zur Weiterentwicklung der bi-direktionalen Übersetzung von Gebärdensprache

Das Projekt SignON zielt auf britische, niederländische, flämische, irische und spanische Gebärdensprachen. In Zusammenarbeit mit mehreren europäischen Universitäten will es drei Probleme lösen. Erstens, die Verbesserung der Algorithmen für das maschinelle Lernen, die die Zeichen und ihre Bedeutung erkennen. Zweitens, eine Herangehensweise zu finden, wie man die charakteristischen Grammatiken der Gebärdensprachen am besten interpretiert. Drittens, die Entwicklung besserer Avatare (die nicht zum „Uncanny Valley Syndrom“ führen).

Ein weiteres Projekt, nämlich EASIER (auch bekannt als: Intelligent Automatic Sign Language Translation-Projekt), hat ähnliche Ziele: nämlich Gebärdensprachenerkennung, robuste Zwei-Wege-Übersetzung und Avatar-Entwicklung. Beide Projekt arbeiten mit der European Union of the Deaf (EUD) zusammen, die 31 nationale Verbände auf dem gesamten Kontinent vertritt.

Dieser Artikel basiert im Wesentlichen auf einem Artikel der Englischen Ausgabe von The Economist, Ausgabe March 06th, 2021. Vergleiche www.economist.com

Zum Weiterlesen

Author

Der Autor ist Manager in der Softwareindustrie mit internationaler Expertise: Prokurist bei einem der großen Beratungshäuser - Verantwortung für den Aufbau eines IT Entwicklungszentrums am Offshore-Standort Bangalore - Director M&A bei einem Softwarehaus in Berlin.