ConCISE: A Reference-Free Conciseness Evaluation Metric for LLM-Generated Answers

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der „Plauder-Maul"-Effekt bei KI

Stellen Sie sich vor, Sie gehen zu einem sehr intelligenten, aber extrem redseligen Freund. Sie fragen ihn: „Wie spät ist es?"
Er antwortet nicht einfach: „Es ist 14 Uhr."
Stattdessen sagt er: „Nun, wenn man die Position der Erde im Verhältnis zur Sonne betrachtet und bedenkt, dass wir uns in der südlichen Hemisphäre befinden, wo die Sonne gerade untergeht, und wenn man die Uhrzeit auf dem Handy überprüft, dann kann man feststellen, dass es 14 Uhr ist. Übrigens, 14 Uhr ist eine schöne Zeit für einen Kaffee..."

Das ist das Problem, das die Autoren dieses Papers beschreiben: Künstliche Intelligenz (LLMs) neigt dazu, viel zu viel zu reden. Sie füllen ihre Antworten mit unnötigen Füllwörtern, Wiederholungen und langen Erklärungen. Das ist nicht nur nervig für den Nutzer, sondern kostet die Entwickler auch echtes Geld, da viele KI-Modelle nach der Anzahl der verbrauchten Wörter (Tokens) abgerechnet werden.

Die Lösung: ConCISE – Der „Kürzungs-Scanner"

Die Forscher vom Commonwealth Bank of Australia haben eine neue Methode namens ConCISE entwickelt. Der Name ist ein Wortspiel aus Concise (knapp) und CISE (für die Autoren).

Stellen Sie sich ConCISE wie einen super-effizienten Lektor vor, der keine Vorbilder braucht. Normalerweise muss man eine KI-Antwort mit einer „perfekten" menschlichen Antwort vergleichen, um zu sehen, ob sie gut ist. Das ist aber teuer und aufwendig. ConCISE macht das anders:

Es schaut sich die Antwort der KI allein an und fragt sich: „Wie viel Müll kann ich hier wegraffen, ohne dass die Bedeutung verloren geht?"

Wie funktioniert das? (Die drei Tricks)

ConCISE nutzt die KI gegen sich selbst, indem sie die Antwort auf drei verschiedene Arten „zusammenpresst", wie man einen Koffer packt, der eigentlich zu voll ist:

Der Zusammenfasser (Abstraktiv): Die KI wird gebeten, die Antwort in eigenen, kurzen Worten neu zu schreiben.
- Vergleich: Wie viel Platz spart man, wenn man die Geschichte neu erzählt, statt sie Wort für Wort abzulesen?
Der Ausreißer (Extraktiv): Die KI sucht die wichtigsten Sätze aus dem Text heraus und wirft den Rest weg.
- Vergleich: Wie viel Platz spart man, wenn man nur die Kernsätze in den Koffer packt?
Der Schere-Meister (Wort-Entfernung): Die KI versucht, jedes einzelne unnötige Wort aus dem Text zu streichen, während die Bedeutung erhalten bleibt.
- Vergleich: Wie viele Wörter kann man aus dem Satz „Der sehr große, riesige Elefant" streichen, bis nur noch „Der Elefant" übrig bleibt?

Am Ende berechnet ConCISE einen Score: Je mehr Wörter die KI erfolgreich entfernen konnte, ohne die Bedeutung zu zerstören, desto weniger konzentriert war die ursprüngliche Antwort. Je weniger Wörter entfernt werden mussten, desto besser (knapper) war die Antwort.

Warum ist das toll?

Kein Vergleich nötig: Früher brauchte man eine „Gold-Standard"-Antwort (eine perfekte menschliche Antwort), um zu prüfen, ob die KI gut war. ConCISE braucht das nicht. Es funktioniert auch dann, wenn niemand weiß, wie die perfekte Antwort aussehen sollte.
Geld sparen: Da kürzere Antworten weniger Rechenleistung benötigen, hilft diese Methode, die Kosten für KI-Systeme zu senken.
Menschliche Qualität: Die Forscher haben getestet, ob ConCISE so urteilt wie Menschen. Das Ergebnis: ConCISE stimmt in 94 % der Fälle mit menschlichen Bewertungen überein, wenn es darum geht, die kürzere von zwei Antworten zu wählen. Herkömmliche Methoden lagen nur bei 39 %.

Ein kleines Warnschild (Die Einschränkung)

Die Autoren geben zu, dass „Kürze" nicht immer gleich „Kürze" ist.

Beispiel: In einem medizinischen Bericht oder einem Finanzvertrag sind lange, detaillierte Erklärungen vielleicht nötig, um rechtlich korrekt zu sein. Was für einen Chatbot „unnötiger Ballast" ist, kann in einem juristischen Dokument „lebenswichtige Details" sein. ConCISE muss also vorsichtig sein, um nicht wichtige Informationen als Müll zu löschen.

Fazit

ConCISE ist wie ein intelligenter Radiergummi für KI-Antworten. Es hilft uns zu messen, wie „aufgeräumt" und direkt eine KI-Antwort ist, ohne dass wir eine perfekte Vorlage zum Vergleichen brauchen. Es ist ein praktisches Werkzeug, um KI-Systeme zu zwingen, kürzer, klarer und kostengünstiger zu antworten – genau so, wie wir es von einem guten Gesprächspartner erwarten.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Große Sprachmodelle (LLMs) neigen häufig dazu, Antworten zu generieren, die übermäßig lang, wortreich und mit redundanten oder unnötigen Details gefüllt sind. Dies hat drei negative Auswirkungen:

Verminderte Klarheit und Nutzerzufriedenheit: Zu lange Antworten können Nutzer überfordern.
Erhöhte Kosten: Bei proprietären Modellen, die nach der Anzahl der ausgegebenen Tokens abgerechnet werden, führt Redundanz zu direkten finanziellen Mehrkosten.
Fehlende Evaluierungsmethoden: Herkömmliche Metriken wie BLEU oder ROUGE sind auf Referenztexte (Gold-Standard) angewiesen und messen primär lexikalische Überlappung oder semantische Ähnlichkeit, nicht aber die Knappheit (Conciseness) oder das Vorhandensein von Redundanzen. Zudem sind manuell annotierte Referenztexte teuer und zeitaufwendig zu erstellen.

Es besteht daher ein dringender Bedarf an einer referenzfreien Metrik, die die Knappheit von LLM-Antworten automatisch und ohne menschliche Ground-Truth-Daten bewerten kann.

Methodik: ConCISE

Die Autoren stellen ConCISE vor, eine neue Metrik zur Bewertung der Knappheit, die vollständig ohne Gold-Standard-Referenzen auskommt. Der Kernansatz besteht darin, nicht-essentiellen Inhalt zu quantifizieren, indem LLMs genutzt werden, um die Antwort zu komprimieren, ohne dabei die semantische Integrität oder die Genauigkeit zu beeinträchtigen.

Die Metrik berechnet den Durchschnittswert aus drei spezifischen Berechnungen:

Abstraktive Kompression: Ein LLM erstellt eine abstraktive Zusammenfassung (paraphrasierte Hauptgedanken) der ursprünglichen Antwort. Das Verhältnis der Längen gibt Aufschluss über den Redundanzgrad.
Extraktive Kompression: Ein LLM wählt die relevantesten Sätze direkt aus dem Originaltext aus (extraktive Zusammenfassung).
Wortentfernungs-Kompression (Pruning): Ein LLM entfernt so viele nicht-essentielle Wörter wie möglich, während die Bedeutung erhalten bleibt. Die Anzahl der entfernten Tokens dient als direktes Maß für die Knappheit.

Validierungsschritt:
Um sicherzustellen, dass die komprimierten Versionen die ursprüngliche Bedeutung und alle wichtigen Entitäten (z. B. Daten, Orte) beibehalten, wird ein weiterer LLM-Schritt eingeführt. Dieser bewertet jede komprimierte Version binär (Ja/Nein) auf:

Semantische Äquivalenz.
Erhaltung der benannten Entitäten.

Berechnungsformel:
Der endgültige ConCISE-Score wird als Durchschnitt der Kompressionsverhältnisse berechnet:
$\text{ConCISE} = \frac{1}{3} \left[ \left(1 - \frac{|A| - |AS|}{|A|}\right) + \left(1 - \frac{|A| - |ES|}{|A|}\right) + \left(1 - \frac{|A| - |RW|}{|A|}\right) \right]$
Dabei steht $|A|$ für die Länge der Originalantwort, $|AS|$ für den Unterschied zur abstraktiven Zusammenfassung, $|ES|$ für den Unterschied zur extraktiven Zusammenfassung und $|RW|$ für den Unterschied zum „geprunten" Text. Negative Werte werden als Null behandelt.

Experimentelles Design

Datensatz: Es wurde das WikiEval-Dataset verwendet, das aus Frage-Kontext-Antwort-Tripeln von Wikipedia-Seiten besteht. Um die Bandbreite zu testen, generierten die Autoren mit GPT-4o bewusst übermäßig wortreiche Versionen der Antworten (unter Beibehaltung der Fakten), um ein Spektrum von „knapp" bis „sehr redundant" zu erzeugen.
Human Evaluation: Drei menschliche Annotatoren bewerteten die Antworten mittels:
1. Likert-Skala (1–5) für die Knappheit.
2. Pairwise Comparison (Welche von zwei Antworten ist knapper?).
Baselines: ConCISE wurde gegen zwei Baselines verglichen:
1. GPT Score: Ein LLM bewertet die Antwort direkt auf einer Skala von 0–10.
2. GPT Ranking: Ein LLM wählt die knappere Antwort aus einem Paar aus.
Evaluierte Modelle: Die Metrik wurde mit verschiedenen LLMs als „Richter" getestet (GPT-4o, Claude-4-Sonnet, Gemini-2.0-Flash, Mistral-Large-2), um Modell-Bias zu minimieren.

Ergebnisse

Die experimentellen Ergebnisse zeigen eine signifikante Überlegenheit von ConCISE gegenüber den Baselines:

Korrelation mit menschlichen Urteilen (Spearman & Kendall):
- ConCISE (mit GPT-4o als Richter) erreichte eine Spearman-Korrelation ( $r_s$ ) von 0,628 und eine Kendall-Tau-Korrelation ( $\tau$ ) von 0,523 mit den menschlichen Likert-Bewertungen. Beide Werte sind statistisch hochsignifikant ( $p < 0,001$ ).
- Im Gegensatz dazu zeigte die GPT Score-Baseline eine schwache, fast nicht existente Korrelation ( $r_s = -0,108$ ), was darauf hindeutet, dass direkte numerische Bewertungen durch Prompts für dieses spezifische Problem unzuverlässig sind.
Pairwise Comparison (Genauigkeit):
- Bei der Aufgabe, die knappere Antwort aus einem Paar auszuwählen, stimmte ConCISE in 94 % der Fälle mit den menschlichen Annotatoren überein (über alle getesteten LLM-Richter hinweg).
- Die Baseline GPT Ranking erreichte nur eine Genauigkeit von 39 %.

Hauptbeiträge

Neue Metrik: Einführung von ConCISE als erste praktische, referenzfreie Metrik zur Quantifizierung der Knappheit von LLM-Antworten.
Validierung: Umfassende Tests, die zeigen, dass die Metrik stark mit menschlichen Urteilen übereinstimmt und Redundanzen effektiv identifiziert.
Praktische Anwendbarkeit: Da keine Gold-Standard-Antworten benötigt werden, ist die Metrik direkt in Produktionsumgebungen (z. B. Chatbots) einsetzbar, um Kosten zu senken und die Nutzererfahrung zu verbessern.

Bedeutung und Ausblick

ConCISE schließt eine wichtige Lücke in der Evaluierung von LLMs, indem es das Problem der „Verbosity" (Wortreichhaltigkeit) direkt adressiert, ohne auf teure menschliche Annotationen angewiesen zu sein. Die hohe Übereinstimmung mit menschlichen Urteilen macht es zu einem wertvollen Werkzeug für die automatische Optimierung von Conversational-AI-Systemen.

Einschränkungen und Zukunftsperspektiven:

Kontextabhängigkeit: Die Definition von „nicht-essentiell" variiert je nach Domäne (z. B. sind regulatorische Details in der Finanzwelt redundant, aber essenziell für die Genauigkeit).
Bias: Die Autoren schlagen vor, in zukünftigen Arbeiten separate Prompts für die einzelnen Kompressionstechniken zu testen, um potenzielle Kreuz-Bias-Effekte innerhalb eines einzigen Generationszyklus zu vermeiden.

Zusammenfassend bietet ConCISE einen robusten, kosteneffizienten und skalierbaren Ansatz, um die Effizienz und Klarheit von KI-generierten Antworten zu messen und zu verbessern.

ConCISE: A Reference-Free Conciseness Evaluation Metric for LLM-Generated Answers

Das Problem: Der „Plauder-Maul"-Effekt bei KI

Die Lösung: ConCISE – Der „Kürzungs-Scanner"

Wie funktioniert das? (Die drei Tricks)

Warum ist das toll?

Ein kleines Warnschild (Die Einschränkung)

Fazit

Problemstellung

Methodik: ConCISE

Experimentelles Design

Ergebnisse

Hauptbeiträge

Bedeutung und Ausblick

Mehr davon

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá