ConCISE: A Reference-Free Conciseness Evaluation Metric for LLM-Generated Answers

Die Arbeit stellt ConCISE vor, ein referenzfreies Metrik-Verfahren zur automatisierten Bewertung der Prägnanz von LLM-Antworten durch die Analyse von Redundanzen mittels Abstraktions-, Extraktions- und Wortentfernungs-Kompressionsverhältnissen.

Seyed Mohssen Ghafari, Ronny Kol, Juan C. Quiroz, Nella Luan, Monika Patial, Chanaka Rupasinghe, Herman Wandabwa, Luiz Pizzato

Veröffentlicht 2026-03-13
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der „Plauder-Maul"-Effekt bei KI

Stellen Sie sich vor, Sie gehen zu einem sehr intelligenten, aber extrem redseligen Freund. Sie fragen ihn: „Wie spät ist es?"
Er antwortet nicht einfach: „Es ist 14 Uhr."
Stattdessen sagt er: „Nun, wenn man die Position der Erde im Verhältnis zur Sonne betrachtet und bedenkt, dass wir uns in der südlichen Hemisphäre befinden, wo die Sonne gerade untergeht, und wenn man die Uhrzeit auf dem Handy überprüft, dann kann man feststellen, dass es 14 Uhr ist. Übrigens, 14 Uhr ist eine schöne Zeit für einen Kaffee..."

Das ist das Problem, das die Autoren dieses Papers beschreiben: Künstliche Intelligenz (LLMs) neigt dazu, viel zu viel zu reden. Sie füllen ihre Antworten mit unnötigen Füllwörtern, Wiederholungen und langen Erklärungen. Das ist nicht nur nervig für den Nutzer, sondern kostet die Entwickler auch echtes Geld, da viele KI-Modelle nach der Anzahl der verbrauchten Wörter (Tokens) abgerechnet werden.

Die Lösung: ConCISE – Der „Kürzungs-Scanner"

Die Forscher vom Commonwealth Bank of Australia haben eine neue Methode namens ConCISE entwickelt. Der Name ist ein Wortspiel aus Concise (knapp) und CISE (für die Autoren).

Stellen Sie sich ConCISE wie einen super-effizienten Lektor vor, der keine Vorbilder braucht. Normalerweise muss man eine KI-Antwort mit einer „perfekten" menschlichen Antwort vergleichen, um zu sehen, ob sie gut ist. Das ist aber teuer und aufwendig. ConCISE macht das anders:

Es schaut sich die Antwort der KI allein an und fragt sich: „Wie viel Müll kann ich hier wegraffen, ohne dass die Bedeutung verloren geht?"

Wie funktioniert das? (Die drei Tricks)

ConCISE nutzt die KI gegen sich selbst, indem sie die Antwort auf drei verschiedene Arten „zusammenpresst", wie man einen Koffer packt, der eigentlich zu voll ist:

  1. Der Zusammenfasser (Abstraktiv): Die KI wird gebeten, die Antwort in eigenen, kurzen Worten neu zu schreiben.
    • Vergleich: Wie viel Platz spart man, wenn man die Geschichte neu erzählt, statt sie Wort für Wort abzulesen?
  2. Der Ausreißer (Extraktiv): Die KI sucht die wichtigsten Sätze aus dem Text heraus und wirft den Rest weg.
    • Vergleich: Wie viel Platz spart man, wenn man nur die Kernsätze in den Koffer packt?
  3. Der Schere-Meister (Wort-Entfernung): Die KI versucht, jedes einzelne unnötige Wort aus dem Text zu streichen, während die Bedeutung erhalten bleibt.
    • Vergleich: Wie viele Wörter kann man aus dem Satz „Der sehr große, riesige Elefant" streichen, bis nur noch „Der Elefant" übrig bleibt?

Am Ende berechnet ConCISE einen Score: Je mehr Wörter die KI erfolgreich entfernen konnte, ohne die Bedeutung zu zerstören, desto weniger konzentriert war die ursprüngliche Antwort. Je weniger Wörter entfernt werden mussten, desto besser (knapper) war die Antwort.

Warum ist das toll?

  • Kein Vergleich nötig: Früher brauchte man eine „Gold-Standard"-Antwort (eine perfekte menschliche Antwort), um zu prüfen, ob die KI gut war. ConCISE braucht das nicht. Es funktioniert auch dann, wenn niemand weiß, wie die perfekte Antwort aussehen sollte.
  • Geld sparen: Da kürzere Antworten weniger Rechenleistung benötigen, hilft diese Methode, die Kosten für KI-Systeme zu senken.
  • Menschliche Qualität: Die Forscher haben getestet, ob ConCISE so urteilt wie Menschen. Das Ergebnis: ConCISE stimmt in 94 % der Fälle mit menschlichen Bewertungen überein, wenn es darum geht, die kürzere von zwei Antworten zu wählen. Herkömmliche Methoden lagen nur bei 39 %.

Ein kleines Warnschild (Die Einschränkung)

Die Autoren geben zu, dass „Kürze" nicht immer gleich „Kürze" ist.

  • Beispiel: In einem medizinischen Bericht oder einem Finanzvertrag sind lange, detaillierte Erklärungen vielleicht nötig, um rechtlich korrekt zu sein. Was für einen Chatbot „unnötiger Ballast" ist, kann in einem juristischen Dokument „lebenswichtige Details" sein. ConCISE muss also vorsichtig sein, um nicht wichtige Informationen als Müll zu löschen.

Fazit

ConCISE ist wie ein intelligenter Radiergummi für KI-Antworten. Es hilft uns zu messen, wie „aufgeräumt" und direkt eine KI-Antwort ist, ohne dass wir eine perfekte Vorlage zum Vergleichen brauchen. Es ist ein praktisches Werkzeug, um KI-Systeme zu zwingen, kürzer, klarer und kostengünstiger zu antworten – genau so, wie wir es von einem guten Gesprächspartner erwarten.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →