Not Too Short, Not Too Long: How LLM Response Length Shapes People's Critical Thinking in Error Detection

Die Studie zeigt, dass bei der Fehlererkennung in LLM-Antworten die Länge der Erklärung den Einfluss der Richtigkeit der KI auf die menschliche Genauigkeit moderiert, wobei mittellange Erklärungen bei falschen LLM-Antworten zu einer besseren kritischen Bewertung führen als kurze oder lange.

Natalie Friedman, Adelaide Nyanyo, Kevin Weatherwax, Lifei Wang, Chengchao Zhu, Zeshu Zhu, S. Joy Mountford

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Titel: Nicht zu kurz, nicht zu lang: Wie die Länge von KI-Antworten unser kritisches Denken beeinflusst

Stell dir vor, du hast einen sehr gutaussehenden, aber manchmal etwas verwirrten Assistenten. Er spricht fließend, klingt sehr selbstbewusst und gibt dir immer sofort eine Antwort auf deine Fragen. Das ist unsere Künstliche Intelligenz (KI), oder genauer gesagt: ein „Large Language Model" (LLM).

Die Forscher von SAP haben sich eine spannende Frage gestellt: Wenn dieser Assistent uns eine Erklärung gibt, wie viel davon sollten wir lesen, damit wir selbst noch klug genug sind, Fehler zu erkennen?

Hier ist die Geschichte ihrer Entdeckungen, einfach erklärt:

1. Das Experiment: Der Assistent und die Rätsel

Die Forscher haben 24 Menschen gebeten, 15 knifflige logische Rätsel zu lösen (ähnlich wie bei einem Intelligenztest für Anwälte). Aber hier war der Haken: Die Menschen mussten die Rätsel nicht selbst lösen. Stattdessen bekamen sie die Lösung von der KI und mussten entscheiden:

  • „Ist die KI richtig?"
  • „Oder hat die KI sich geirrt?"

Das Tolle war: Die KI-Antworten wurden absichtlich verändert.

  • Manchmal war die KI richtig, manchmal falsch.
  • Manchmal war die Erklärung kurz (wie ein Tweet), manchmal mittel (wie ein kurzer Blogbeitrag) und manchmal sehr lang (wie ein kleines Buch).

2. Die Entdeckung: Der „Goldlöckchen-Effekt"

Stell dir Goldlöckchen vor, die die drei Porridge-Schalen probiert: eine zu heiß, eine zu kalt und eine „genau richtig". Genau das passierte hier mit den KI-Antworten.

  • Die langen Antworten (Der „zu heiße Porridge"):
    Wenn die KI eine sehr lange, detaillierte Erklärung gab, wurden die Menschen verwirrt. Sie dachten: „Wow, das klingt so komplex und fundiert!" und glaubten der KI blind.

    • Das Ergebnis: Wenn die KI einen Fehler machte, merkten die Menschen das fast nie. Sie ließen sich von der Länge und dem Wortfluss blenden.
  • Die kurzen Antworten (Der „zu kalte Porridge"):
    Wenn die KI nur kurz und knapp antwortete, fehlte den Menschen oft der Kontext. Sie hatten nicht genug Informationen, um zu prüfen, ob die Logik stimmt.

    • Das Ergebnis: Auch hier waren die Menschen unsicher und machten öfter Fehler beim Erkennen von KI-Fehlern.
  • Die mittleren Antworten (Der „genau richtige Porridge"):
    Hier passierte das Magische. Wenn die KI eine Erklärung von mittlerer Länge gab, waren die Menschen am schärfsten.

    • Das Ergebnis: Wenn die KI falsch lag, konnten die Menschen den Fehler viel besser finden als bei den langen oder kurzen Antworten. Sie hatten genug Informationen, um nachzudenken, aber nicht so viel, dass sie überwältigt wurden.

3. Die wichtigste Lektion: Wahrheit ist wichtiger als Länge

Es gab noch eine zweite, sehr wichtige Erkenntnis:
Die Wahrheit der Antwort war viel wichtiger als die Länge.

  • Wenn die KI richtig lag, waren die Menschen fast immer richtig, egal wie lang die Antwort war.
  • Wenn die KI falsch lag, waren die Menschen oft verwirrt. Aber: Bei den mittleren Antworten waren sie am besten in der Lage, die Lüge zu durchschauen.

4. Was bedeutet das für uns im Alltag?

Stell dir vor, du nutzt eine KI, um einen wichtigen Geschäftsbericht zu schreiben oder eine medizinische Diagnose zu überprüfen.

  • Der Fehler: Wir denken oft: „Je mehr Details die KI liefert, desto besser und vertrauenswürdiger ist sie."
  • Die Realität: Lange, ausschweifende Texte können uns wie ein Nebel um den Kopf legen. Wir hören auf, kritisch zu denken, und glauben einfach dem „Autoritäts-Ton" der KI.

Die Lösung für KI-Designer:
KI sollte nicht immer versuchen, so viel wie möglich zu sagen. Stattdessen sollte sie klar und präzise sein.

  • Eine mittlere Länge hilft uns, wachsam zu bleiben.
  • Es ist besser, die Logik (das „Warum") klar von der Schlussfolgerung (dem „Was") zu trennen, damit wir sehen können, ob die KI sich selbst widerspricht.

Zusammenfassung in einem Satz

Wenn eine KI uns antwortet, ist eine mittlere Länge oft der beste Weg, damit wir nicht dumm werden, sondern klug genug bleiben, um Fehler zu erkennen – denn ein langer Text ist nicht automatisch ein wahrer Text.