Do Multilingual VLMs Reason Equally? A Cross-Lingual Visual Reasoning Audit for Indian Languages

Each language version is independently generated for its own context, not a direct translation.

🧠 Das große Experiment: Können KI-Genies auch auf „Heimat-Sprache" denken?

Stell dir vor, du hast einen extrem klugen Schüler, der alle Mathe- und Naturwissenschaftsaufgaben der Welt lösen kann – aber nur, wenn sie auf Englisch gestellt werden. Er ist ein Genie für Formeln und Diagramme.

Nun stellt sich die Frage: Was passiert, wenn wir ihm die gleichen Aufgaben auf Hindi, Tamil oder Bengali geben? Kann er dann immer noch so gut denken, oder verliert er seine Superkräfte?

Dieses Papier von Swastik R. untersucht genau das. Der Forscher hat 980 knifflige Fragen (aus Mathematik, Wissenschaft und Logik) von Englisch in sechs große indische Sprachen übersetzt und sie acht verschiedenen KI-Modellen vorgelegt. Das Ziel war ein „Audit" (eine Prüfung), um zu sehen, ob diese KIs wirklich gleich gut funktionieren oder ob sie bei bestimmten Sprachen stolpern.

Hier sind die wichtigsten Erkenntnisse, erklärt mit ein paar anschaulichen Vergleichen:

1. Der „Sprach-Abwärtssog" 📉

Die Ergebnisse waren eindeutig: Die KIs wurden deutlich dümmer, sobald die Sprache wechselte.

Die Metapher: Stell dir vor, die KI läuft auf einem glatten Eisbahn (Englisch) und ist sehr schnell. Sobald sie auf Gras (Indische Sprachen) wechselt, rutscht sie aus und wird langsamer.
Die Zahlen: Die Genauigkeit der Modelle sank um 9,8 bis 25 Prozentpunkte. Das ist wie ein Schüler, der im Englischen eine 1 schreibt, aber auf Hindi plötzlich eine 4 oder 5 bekommt.
Besonders hart betroffen: Sprachen aus der dravidischen Familie (wie Tamil, Telugu, Kannada) waren für die KIs noch schwieriger als die indo-arischen Sprachen (wie Hindi oder Marathi). Es war, als ob die KI gegen eine stärkere Wand prallte.

2. Die „Ketten-Gedanken"-Falle ⛓️🚫

In der KI-Welt gibt es eine beliebte Methode namens „Chain-of-Thought" (Schritt-für-Schritt-Denken). Man sagt der KI: „Denk Schritt für Schritt nach", damit sie nicht einfach rät.

Das Problem: Bei indischen Sprachen funktionierte das genau gegenteilig. Wenn man die KI auf Hindi oder Bengali aufforderte, Schritt für Schritt zu denken, wurde sie schlechter.
Die Metapher: Es ist, als würdest du jemanden bitten, einen komplexen Tanzschritt in einer Sprache zu erklären, die er nicht fließend spricht. Statt einer klaren Erklärung bekommt man nur ein wirres Gemurmel, das die Antwort verderbt. Die KI war in ihren „Denk-Ketten" auf Englisch verankert und konnte diese Logik nicht auf andere Sprachen übertragen.

3. Bilder vs. Text: Der „Blinde Fleck" 👁️📄

Die KIs haben Bilder gesehen und Fragen dazu beantwortet.

Die Erkenntnis: Wenn man das Bild wegnimmt und nur den Text lässt, bricht die Leistung der KI auf Englisch stark ein (sie braucht das Bild sehr). Auf indischen Sprachen fiel die Leistung aber weniger stark ab.
Die Metapher: Das klingt erst mal gut, ist aber eigentlich ein schlechtes Zeichen. Es bedeutet, dass die KI auf indischen Sprachen das Bild ohnehin kaum verstanden hat. Sie war schon so sehr damit beschäftigt, den Text zu entziffern, dass das Bild für sie fast unsichtbar war. Auf Englisch hingegen nutzte sie das Bild als starke Hilfe.

4. Größe hilft, aber nicht genug 📏

Man dachte vielleicht: „Je größer das KI-Modell, desto besser."

Das Ergebnis: Größere Modelle (z. B. von 7 Milliarden auf 32 Milliarden Parameter) wurden zwar etwas besser, aber der große Vorsprung vor den kleineren Modellen blieb bestehen.
Die Metapher: Ein riesiger Riese (großes Modell) kann zwar etwas besser auf Gras laufen als ein kleiner Zwerg, aber er stolpert trotzdem noch viel mehr als auf der Eisbahn. Einfach nur „mehr Daten" reicht nicht aus, um das Denken in anderen Sprachen zu verbessern.

5. Die „Geheimsprache"-Trickerei 🕵️‍♂️

Einige Modelle (wie Llama-4-Maverick) schienen auf den ersten Blick gut zu funktionieren. Aber eine Analyse zeigte: Sie dachten eigentlich immer noch auf Englisch!

Die Metapher: Stell dir vor, du fragst jemanden auf Deutsch nach dem Wetter. Er antwortet auf Deutsch, aber im Kopf rechnet er alles in Englisch um und übersetzt dann nur das Endergebnis. Das funktioniert bei einfachen Ja/Nein-Fragen, aber wenn du ihn bittest, eine lange Erklärung zu geben, bricht das System zusammen.
Das Problem: Modelle, die viel „Englisch-Leak" (Englische Wörter im Text) hatten, waren oft konsistenter, aber sie konnten keine echten Erklärungen auf der Zielsprache liefern. Modelle, die sich streng an die Zielsprache hielten (wie Aya-Vision), waren oft verwirrter und machten mehr Fehler.

🎓 Was bedeutet das für die Zukunft?

Die Studie warnt vor einem großen Problem: Wenn wir diese KIs in indischen Schulen einsetzen, um Kindern Mathematik oder Naturwissenschaften beizubringen, werden die Kinder benachteiligt.

Ein Kind, das Hindi spricht, würde von einer KI schlechter unterrichtet werden als ein englischsprachiges Kind.
Besonders Kinder, die in dravidischen Sprachen lernen, würden am meisten leiden.

Die Botschaft: Es reicht nicht, eine KI einfach nur mit mehr Texten in verschiedenen Sprachen zu füttern (Vor-Training). Man muss sie speziell darauf trainieren, in diesen Sprachen auch logisch zu denken (Reasoning). Sonst bleiben sie nur „Übersetzer", die das tiefe Verständnis der Materie in der Muttersprache nicht beherrschen.

Zusammengefasst: Die KIs sind wie hochbegabte Sportler, die nur auf einer bestimmten Bahn (Englisch) ihre Weltrekorde laufen. Sobald man sie auf eine andere Bahn (Indische Sprachen) stellt, verlieren sie ihre Balance. Bevor wir sie in Schulen einsetzen, müssen wir ihnen erst beibringen, auf allen Bahnen sicher zu laufen.

Do Multilingual VLMs Reason Equally? A Cross-Lingual Visual Reasoning Audit for Indian Languages

🧠 Das große Experiment: Können KI-Genies auch auf „Heimat-Sprache" denken?

1. Der „Sprach-Abwärtssog" 📉

2. Die „Ketten-Gedanken"-Falle ⛓️🚫

3. Bilder vs. Text: Der „Blinde Fleck" 👁️📄

4. Größe hilft, aber nicht genug 📏

5. Die „Geheimsprache"-Trickerei 🕵️‍♂️

🎓 Was bedeutet das für die Zukunft?

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

A. Genereller Leistungsabfall (Accuracy Drop)

B. Sprachfamilien-Effekt (Dravidisch vs. Indo-Arisch)

C. Chain-of-Thought (CoT) Paradoxon

D. Bild vs. Text

E. Skalierungseffekte

F. „Englisch-Token-Leak"

5. Bedeutung und Implikationen

Do Multilingual VLMs Reason Equally? A Cross-Lingual Visual Reasoning Audit for Indian Languages

🧠 Das große Experiment: Können KI-Genies auch auf „Heimat-Sprache" denken?

1. Der „Sprach-Abwärtssog" 📉

2. Die „Ketten-Gedanken"-Falle ⛓️🚫

3. Bilder vs. Text: Der „Blinde Fleck" 👁️📄

4. Größe hilft, aber nicht genug 📏

5. Die „Geheimsprache"-Trickerei 🕵️‍♂️

🎓 Was bedeutet das für die Zukunft?

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

A. Genereller Leistungsabfall (Accuracy Drop)

B. Sprachfamilien-Effekt (Dravidisch vs. Indo-Arisch)

C. Chain-of-Thought (CoT) Paradoxon

D. Bild vs. Text

E. Skalierungseffekte

F. „Englisch-Token-Leak"

5. Bedeutung und Implikationen

Mehr davon

GeoBlock: Inferring Block Granularity from Dependency Geometry in Diffusion Language Models

AlpsBench: An LLM Personalization Benchmark for Real-Dialogue Memorization and Preference Alignment

The Cognitive Divergence: AI Context Windows, Human Attention Decline, and the Delegation Feedback Loop

LogicDiff: Logic-Guided Denoising Improves Reasoning in Masked Diffusion Language Models

Resolving the Robustness-Precision Trade-off in Financial RAG through Hybrid Document-Routed Retrieval