EPIC-EuroParl-UdS: Information-Theoretic Perspectives on Translation and Interpreting

Dieser Artikel stellt eine aktualisierte und kombinierte Version des EPIC-EuroParl-UdS-Korporas vor, das um linguistische Annotationen und informationstheoretische Metriken erweitert wurde, um Forschungen zur Sprachvariation, Übersetzungsanalyse und insbesondere zur Vorhersage von Füllwörtern im Dolmetschen mittels probabilistischer Modelle zu unterstützen.

Maria Kunilovskaya, Christina Pollkläsener

Veröffentlicht Wed, 11 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast eine riesige Bibliothek, die nicht nur Bücher, sondern auch Tonaufnahmen von Reden des Europäischen Parlaments enthält. Diese Reden gibt es in zwei Sprachen: Deutsch und Englisch. Das Besondere daran ist, dass wir nicht nur die Originalreden haben, sondern auch, wie sie von Dolmetschern sofort ins andere Sprachgewand übersetzt wurden (simultane Übersetzung) und wie sie später als offizielle, geschriebene Texte vorliegen.

Die Autoren dieses Papers, Maria und Christina, haben diese Bibliothek jetzt komplett renoviert, neu sortiert und mit einem ganz besonderen Werkzeug ausgestattet: einem „Überraschungs-Messgerät".

Hier ist die Erklärung, was sie gemacht haben und warum das spannend ist, ganz einfach erklärt:

1. Das Problem: Die alte Bibliothek war etwas chaotisch

Früher gab es diese Daten schon, aber sie waren wie ein altes Haus mit kaputten Böden und unpassenden Türen.

  • Fehler: Manche Texte waren falsch beschriftet, andere fehlten.
  • Unordnung: Die gesprochenen Texte (Dolmetschen) und die geschriebenen Texte (Übersetzungen) sahen ganz unterschiedlich aus, was einen Vergleich schwierig machte.
  • Fehlende Details: Es gab keine genauen Hinweise darauf, wie schwer ein Wort für den Dolmetscher oder Übersetzer zu verarbeiten war.

2. Die Lösung: EPIC-EuroParl-UdS – Das renovierte Haus

Die Autoren haben das ganze Projekt auf den Kopf gestellt und eine neue, saubere Version gebaut.

  • Aufräumen: Sie haben Fehler korrigiert, die Sprache vereinheitlicht und sicherstellen, dass jedes Wort genau dort steht, wo es hingehört.
  • Der „Überraschungs-Messwert" (Surprisal): Das ist das Herzstück. Stell dir vor, du liest einen Satz: „Der Mann ging zum..." und erwartest das Wort „Bäcker". Wenn dort plötzlich das Wort „Flughafen" steht, bist du überrascht. Dein Gehirn muss mehr arbeiten, um das Unvorhergesehene zu verarbeiten.
    • In der Linguistik nennt man das Surprisal (Überraschung).
    • Die Autoren haben für jedes einzelne Wort in diesen Tausenden von Reden berechnet, wie „überraschend" es für eine KI (eine Art künstliches Gehirn) ist.
    • Sie haben sogar zwei Arten von KIs benutzt: eine, die alles kennt (allgemein), und eine, die speziell auf politische Reden trainiert wurde (spezialisiert).

3. Warum ist das so wichtig? (Die Analogie vom Dolmetscher)

Stell dir einen Dolmetscher vor, der live eine Rede ins Deutsche übersetzt. Er steht unter enormem Druck.

  • Harte Arbeit: Wenn der Redner ein sehr schwieriges, unvorhersehbares Wort sagt (hohes Surprisal), muss der Dolmetscher kurz innehalten, um nachzudenken.
  • Die Pause (Füller): Oft hören wir in solchen Momenten kleine Geräusche wie „Äh", „Hm" oder „Euh". Diese nennt man Füller.
  • Die Entdeckung: Die Autoren haben untersucht, ob diese „Äh"-Geräusche wirklich mit den „überraschenden" Wörtern zusammenhängen.
    • Ergebnis: Ja! Wenn das nächste Wort für den Dolmetscher schwer zu formulieren ist (hohe Überraschung), macht er eher eine Pause und sagt „Äh".
    • Interessanterweise hilft ihnen das, was sie gerade verstehen (das Original), weniger als das, was sie gerade sagen müssen (die Zielsprache). Wenn das Zielwort schwer zu finden ist, kommt das „Äh".

4. Was bringt uns das?

Diese neue Datenbank ist wie ein Super-Mikroskop für Sprache.

  • Für Forscher: Sie können jetzt genau sehen, wo das Gehirn beim Übersetzen ins Stocken gerät. Sie können vergleichen, ob geschriebene Übersetzungen anders funktionieren als gesprochene Dolmetschungen.
  • Für KI: Die Daten helfen Künstlicher Intelligenz zu lernen, wie Menschen denken und sprechen, besonders wenn sie unter Stress stehen.
  • Für alle: Es zeigt uns, dass Sprache nicht nur aus Wörtern besteht, sondern aus einem ständigen Tanz zwischen Vorhersehbarkeit und Überraschung. Wenn wir überrascht werden, brauchen wir eine kleine Pause („Äh"), um den Knoten im Gehirn zu lösen.

Zusammengefasst:
Die Autoren haben eine riesige Sammlung von politischen Reden und Übersetzungen gesäubert und mit einem Maßband für „geistige Anstrengung" versehen. Damit können wir jetzt besser verstehen, warum Dolmetscher manchmal stocken und wie unser Gehirn mit neuen, schwierigen Informationen umgeht. Es ist ein Werkzeug, um die unsichtbare Arbeit des Denkens beim Sprechen sichtbar zu machen.