Large Language Models Readability Classification: A Variability Analysis of Sources and Metrics

Diese Studie zeigt, dass die Lesbarkeitsbewertung von Gesundheitsinformationen durch Large Language Models sowohl durch die Wahl des Modells als auch durch die gewählte Metrik erheblich variiert, wobei die Verwendung von Wikipedia als Wissensquelle zwar die Genauigkeit erhöht, aber zu inkonsistenten Lesbarkeitswerten führt und somit sprachübergreifende, metrik-spezifische Evaluierungsprotokolle erfordert.

Corrale de Matos, H. G., Wasmann, J.-W. A., Catalani Morata, T., de Freitas Alvarenga, K., Bornia Jacob, L. C.

Veröffentlicht 2026-03-02
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre
⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

🎙️ Wenn KI über Gesundheit spricht: Ist die Sprache zu schwer?

Stellen Sie sich vor, Sie gehen zum Arzt und erhalten eine wichtige Anweisung zur Behandlung Ihres Gehörs. Der Arzt gibt Ihnen einen Zettel. Aber was, wenn dieser Zettel in einer Sprache geschrieben ist, die Sie nicht verstehen? Vielleicht ist er voller schwerer Fachbegriffe, wie wenn ein Physiker versucht, einem Kind zu erklären, wie ein Flugzeug fliegt – mit Formeln statt mit Bildern.

Genau dieses Problem untersucht diese Studie. Sie fragt: Wenn künstliche Intelligenz (KI) Gesundheitsinformationen schreibt, verstehen die Patienten sie wirklich? Und noch wichtiger: Verstehen alle KIs die Aufgabe gleich gut?

🤖 Das Experiment: Sieben Köche und fünf Maßstäbe

Die Forscher haben sich sieben verschiedene KI-Modelle (wie ChatGPT, Gemini, Claude usw.) vorgenommen. Man kann sich diese wie sieben verschiedene Köche vorstellen.

  • Die Aufgabe: Alle sollen ein Rezept für eine gesunde Ernährung (hier: Informationen über Hörgeräte und Ohren) schreiben.
  • Die Zutaten: Zuerst haben sie nur aus ihrem eigenen Gedächtnis gekocht (das nennt man "Baseline"). Dann haben sie ihnen gesagt: "Schaut bitte zuerst in das große Kochbuch Wikipedia nach, bevor ihr kocht" (das nennt man "Wikipedia-Grounding").

Anschließend haben sie die Gerichte (die Texte) von fünf verschiedenen Lebensmittel-Inspektoren (den "Lesbarkeits-Metriken") begutachten lassen. Jeder Inspektor hat eine andere Methode:

  • Der eine zählt die langen Wörter (wie viele Silben).
  • Der andere zählt die Buchstaben.
  • Ein dritter schaut, wie viele Sätze auf einer Seite stehen.

🍽️ Was haben sie herausgefunden?

Hier kommen die zwei großen Überraschungen, die wie ein Aha-Effekt wirken:

1. Der "Wikipedia-Effekt" macht die Köche unterschiedlich
Als die Köche nur aus ihrem eigenen Gedächtnis gekocht haben, waren ihre Gerichte alle ziemlich ähnlich leicht zu verdauen. Aber sobald sie das Wikipedia-Kochbuch benutzen durften, passierte etwas Seltsames:

  • Koch A (z. B. ChatGPT) hat das Kochbuch gelesen und das Rezept in einfache, kindgerechte Sprache übersetzt.
  • Koch B (z. B. Claude) hat das Kochbuch gelesen und das Rezept fast wortwörtlich abgeschrieben – mit allen schweren Fachbegriffen.
  • Koch C (z. B. Copilot) hat das Kochbuch gelesen und es so kompliziert gemacht, dass man fast eine Übersetzung braucht.

Die Lehre: Selbst wenn man allen KIs die gleiche Quelle (Wikipedia) gibt, verarbeiten sie die Informationen unterschiedlich. Für den Patienten bedeutet das: Wenn Sie heute eine KI nutzen, ist die Antwort vielleicht leicht verständlich. Wenn Sie morgen eine andere KI nutzen, könnte die Antwort über Ihren Kopf gehen – obwohl beide auf dieselbe Wahrheit zurückgreifen.

2. Die Inspektoren streiten sich
Das zweite Problem ist, dass die fünf Lebensmittel-Inspektoren (die Messmethoden) sich nicht einig waren.

  • Inspektor 1 sagte: "Das Gericht ist perfekt für Kinder!"
  • Inspektor 2 sagte: "Nein, das ist viel zu schwer für Laien!"

Die Lehre: Man kann sich nicht auf eine einzige Messmethode verlassen. Es ist wie beim Wiegen: Wenn Sie sich auf einer Waage wiegen, steht dort 70 kg. Auf einer anderen Waage stehen vielleicht 72 kg. Wenn Sie nur eine Waage nutzen, wissen Sie nie, ob Ihre Zahl stimmt. Bei KIs ist es genauso: Je nachdem, welches Messwerkzeug Sie nutzen, kommt ein anderes Ergebnis heraus.

🚨 Warum ist das wichtig?

Stellen Sie sich vor, Sie bauen eine Brücke. Wenn der Architekt sagt "Die Brücke ist sicher", aber der Statiker sagt "Nein, sie ist zu schwer", dann bauen Sie keine Brücke.

In der Medizin ist das noch kritischer. Wenn eine KI falsche Informationen liefert, ist das gefährlich. Aber wenn sie wahrheitsgemäße Informationen liefert, die aber zu schwer zu verstehen sind, ist das auch gefährlich. Der Patient versteht die Anweisung nicht, ignoriert sie und sein Gesundheitszustand verschlechtert sich.

Die Studie zeigt uns ein Ziel-Dilemma:

  • Wenn wir KI anweisen, sich an Fakten (Wikipedia) zu halten, wird sie oft genauer, aber manchmal schwerer verständlich.
  • Wenn wir sie anweisen, einfach zu sein, ist sie vielleicht leichter verständlich, aber manchmal weniger präzise.

💡 Was sollten wir tun?

Die Forscher schlagen vor, dass wir nicht blind auf KI vertrauen dürfen. Wir brauchen klare Regeln:

  1. Nicht nur eine KI nutzen: Wir müssen testen, ob verschiedene KIs auch für verschiedene Sprachen (wie Deutsch oder Portugiesisch) gleich gut funktionieren.
  2. Mehrere Messungen: Wir sollten nicht nur eine Methode nutzen, um zu prüfen, ob ein Text einfach ist, sondern mehrere.
  3. Menschliche Kontrolle: Bevor eine KI-Empfehlung an Patienten geht, muss jemand prüfen: "Versteht ein normaler Mensch das?"

Zusammengefasst:
KI ist wie ein sehr kluger, aber manchmal verwirrter Dolmetscher. Wenn wir ihm ein schweres Buch geben, um es zu übersetzen, kann er es perfekt übersetzen (wahr), aber in einer Sprache, die niemand versteht (unlesbar). Oder er vereinfacht es so sehr, dass die Details verloren gehen. Unsere Aufgabe ist es, sicherzustellen, dass die Botschaft nicht nur wahr, sondern auch für jeden verständlich ist – egal welche KI sie spricht.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →