Asymmetry between warmth and clinical substance in multilingual consumer health AI

Diese Studie zeigt, dass mehrsprachige KI für Verbraucher-Gesundheit eine kritische Asymmetrie aufweist, bei der klinische Substanz und Sicherheit je nach Sprache erheblich variieren – oft in nicht-englischen Kontexten stillschweigend versagend –, während sie über alle Sprachen hinweg einen konsistenten, empathischen Ton beibehält.

Ursprüngliche Autoren: Ariel, D., Grumberg, L. R., Supakul, S., Wannasri, S., Mitchnik, I. Y., Lev, A., Ariyamethanon, W., Agbarieh, M., Miari, S., Laban, G., Hasid, B.

Veröffentlicht 2026-05-14
📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Ariel, D., Grumberg, L. R., Supakul, S., Wannasri, S., Mitchnik, I. Y., Lev, A., Ariyamethanon, W., Agbarieh, M., Miari, S., Laban, G., Hasid, B.

Originalarbeit lizenziert unter CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie haben vier verschiedene „digitale Ärzte" (KI-Chatbots), die Gesundheitsfragen beantworten sollen. Sie stellen ihnen dieselben medizinischen Fragen, jedoch in sechs verschiedenen Sprachen: Englisch, Französisch, Russisch, Arabisch, Hebräisch und Thai.

Diese Studie ist wie ein massiver Qualitätskontrolltest. Die Forscher stellten den Bots nicht nur einfache Fragen; sie griffen auf echte, unordentliche, reale Gesundheitsbedenken aus Online-Foren zurück und forderten die Bots auf, diese zu lösen. Anschließend beauftragten sie echte Ärzte, die diese spezifischen Sprachen sprechen, um die Antworten zu bewerten.

Hier ist das Ergebnis, einfach erklärt:

1. Die „warme Umarmung" versus die „schlechte Karte"

Die überraschendste Entdeckung ist eine Spaltung zwischen wie die KI klingt und was die KI tatsächlich sagt.

  • Die warme Umarmung (Empathie): Die KI-Chatbots waren hervorragend darin, freundlich, fürsorglich und warm zu klingen, unabhängig davon, welche Sprache Sie sprachen. Wenn Sie eine Frage auf Thai oder Hebräisch stellten, klang der Bot genauso mitfühlend wie auf Englisch. Es war wie ein Roboter, der gelernt hatte, in jeder Sprache eine perfekte, tröstende Umarmung zu geben.
  • Die schlechte Karte (klinische Substanz): Der eigentliche medizinische Rat war jedoch in nicht-englischen Sprachen oft eine Katastrophe. Während die englischen Antworten wie eine klare, genaue Karte zum Krankenhaus waren, waren die Antworten auf Thai, Hebräisch und Arabisch oft wie Karten mit fehlenden Straßen, falschen Abzweigungen oder Sackgassen.

Die Analogie: Stellen Sie sich einen Reiseleiter vor, der perfektes Englisch spricht und Ihnen eine detaillierte, genaue Stadtkarte gibt. Stellen Sie sich nun denselben Guide vor, der versucht, Ihnen eine Karte in einer Sprache zu geben, die er kaum beherrscht. Er könnte immer noch warm lächeln, Ihre Hand halten und sagen: „Machen Sie sich keine Sorgen, ich habe Sie im Blick!" (Die warme Umarmung), aber die Karte, die er Ihnen gibt, könnte Sie statt ins Museum in einen Fluss führen (Die schlechte Karte).

2. Die Sprache ist wichtiger als die Marke

Sie könnten denken: „Nun, vielleicht ist der 'Google'-Bot besser als der 'OpenAI'-Bot." Die Studie ergab, dass es keine Rolle spielte, welchen Bot Sie verwendeten.

Der entscheidendste Faktor dafür, ob der Rat sicher oder gefährlich war, war die Sprache, die Sie sprachen, nicht das Unternehmen, das den Bot entwickelt hatte.

  • Wenn Sie Englisch sprachen, war der Rat im Allgemeinen sicher und genau.
  • Wenn Sie Thai, Hebräisch oder Arabisch sprachen, war der Rat deutlich schlechter, unabhängig davon, ob Sie mit ChatGPT, Claude, Gemini oder DeepSeek sprachen.

Es ist wie beim Bestellen einer Mahlzeit in einer Restaurantkette. Ob Sie zu „Big Burger" oder „Super Burger" gehen: Wenn Sie in einer Sprache bestellen, die die Küche nicht gut versteht, erhalten Sie vielleicht einen Salat statt eines Burgers. Die Marke rettet Sie nicht; die Sprachbarriere tut es.

3. Die „stille" Gefahr

Die Studie ergab, dass die KI normalerweise keine lauten, offensichtlichen Fehler machte (wie etwa: „Nehmen Sie dieses Gift"). Stattdessen machte sie stille Auslassungen.

  • Das Schlaganfall-Beispiel: Wenn ein Patient Symptome eines Schlaganfalls beschrieb, sagte die KI auf Englisch vielleicht: „Gehen Sie sofort in die Notaufnahme; es gibt ein 4,5-Stunden-Fenster für die Behandlung." In anderen Sprachen sagte die KI: „Gehen Sie in die Notaufnahme", vergaß aber, die Zeitgrenze zu erwähnen. Sie sagte nichts Falsches; sie ließ einfach das wichtigste Stück Information weg.
  • Das Kohlenmonoxid-Beispiel: Wenn ein Ehemann sagte, seine Familie fühle sich krank und machte „Arbeitsstress" dafür verantwortlich, sagte die KI auf Englisch vielleicht: „Prüfen Sie auf Kohlenmonoxid; wenn alle im Haus krank sind, ist es kein Stress." In anderen Sprachen stimmte die KI dem Ehemann zu, dass es nur Stress sei, und übersah den Hinweis, der Leben retten konnte.

Die Analogie: Es ist wie ein Arzt, der Ihnen sagt, Sie sollen Ihr Medikament nehmen, aber vergisst zu sagen, wann Sie es nehmen sollen. Der Rat ist nicht in einer Weise „falsch", die Sie leicht anfechten können, aber er ist nutzlos und gefährlich, weil der wichtigste Teil fehlt.

4. Die „sicheren" Notrufnummern

Wenn Menschen in nicht-englischen Sprachen nach Notfällen fragten, gaben die Bots oft nicht die korrekte lokale Notrufnummer an.

  • Auf Englisch wussten sie, „911" (im US-Kontext) oder die lokale Nummer zu nennen.
  • In anderen Sprachen sagten sie oft nur „Rufen Sie den Notdienst an", ohne eine Nummer zu nennen, oder gaben eine generische Nummer an, die in diesem spezifischen Land nicht funktionierte. Sie waren „sicher" (sie gaben niemandem in Thailand eine falsche Nummer wie 911), aber sie waren nicht hilfreich.

5. Warum passiert das?

Die Forscher stellten fest, dass das Problem umso schlimmer wird, je weiter eine Sprache von Englisch entfernt ist, sowohl hinsichtlich dessen, wie Computer über Wörter „denken" (Tokenisierung), als auch hinsichtlich der Menge an Daten, die für diese Sprache online verfügbar ist.

  • Sprachen wie Thai oder Hebräisch, die strukturell sehr unterschiedlich von Englisch sind und weniger digitale Daten haben, litten am meisten.
  • Die KI-Modelle scheinen hauptsächlich auf englischen Daten trainiert worden zu sein. Wenn sie versuchen, andere Sprachen zu sprechen, „raten" sie im Wesentlichen die medizinischen Fakten, während sie sehr selbstbewusst und freundlich klingen.

Das Fazit

Die Studie kommt zu dem Schluss, dass aktuelle KI-Gesundheitstools nicht für die ganze Welt bereit sind. Sie sind hervorragend darin, in jeder Sprache wie ein fürsorglicher Freund zu klingen, aber sie sind oft schrecklich darin, ein sicherer medizinischer Berater in Sprachen außer Englisch zu sein.

Die Gefahr besteht darin, dass ein Patient durch den warmen Ton der KI so getröstet wird, dass er dem schlechten Rat vertraut, der darin verborgen ist. Die Studie warnt davor, dass wir nicht davon ausgehen können, eine KI sei sicher, nur weil sie Ihre Sprache fließend spricht; die „Substanz" der Antwort bricht oft genau in dem Moment zusammen, in dem Sie die englischsprachige Welt verlassen.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →