ConCISE: A Reference-Free Conciseness Evaluation Metric for LLM-Generated Answers

Deze paper introduceert ConCISE, een referentievrije metric die de beknoptheid van antwoorden van grote taalmodellen meet door drie compressieberekeningen te combineren om redundantie te identificeren zonder grondwaarheid-annotaties.

Seyed Mohssen Ghafari, Ronny Kol, Juan C. Quiroz, Nella Luan, Monika Patial, Chanaka Rupasinghe, Herman Wandabwa, Luiz Pizzato

Gepubliceerd 2026-03-13
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een vriend vraagt: "Hoe kom ik naar het station?" en die vriend begint een uur lang te vertellen over de geschiedenis van de trein, de weersvoorspelling voor de komende week en zijn droom over een reis naar Mars. Terwijl je alleen maar wilt weten of je links of rechts moet slaan. Dat is precies wat veel kunstmatige intelligentie (LLM's) vaak doet: ze zijn zo enthousiast dat ze te veel praten, vol met overbodige details.

Dit papier introduceert een nieuwe manier om dit gedrag te meten, genaamd ConCISE. Hier is een uitleg in gewone taal, met een paar creatieve vergelijkingen.

Het Probleem: De "Opschepper"

Stel je voor dat je een kok bent die een gerecht serveert. Als je gast vraagt om een klein hapje, en jij serveert een hele maaltijd met drie voorgerechten, een hoofdgerecht en een dessert, dan is dat niet alleen duur (want tokens kosten geld), maar ook verwarrend. De gast wil gewoon het hapje.

LLM's zijn vaak die kok die niet weet wanneer hij moet stoppen met koken. Ze vullen hun antwoorden met "opvulsel" (redundantie), wat de boodschap verduistert en de kosten verhoogt.

De Oplossing: De "Slimme Schaar" (ConCISE)

De auteurs van dit papier hebben een nieuwe meetlat bedacht, ConCISE. Het bijzondere? Je hebt geen "juist antwoord" (een voorbeeld van een perfecte menselijke reactie) nodig om te weten of een antwoord kort en krachtig is. Het werkt volledig zelfstandig.

Stel je voor dat ConCISE een slimme schaar is die drie verschillende manieren gebruikt om te kijken hoeveel "vet" er in een antwoord zit:

  1. De Samenvattingsschaar (Abstractive): De AI leest het lange antwoord en schrijft het in één zin op met andere woorden. Als de originele tekst 100 woorden is en de samenvatting 20, dan is er veel "vet" weggehaald.
  2. De Knipschaar (Extractive): De AI plukt alleen de belangrijkste zinnen uit het origineel en gooit de rest weg.
  3. De Pruningschaar (Word-Removal): Dit is de meest grappige. De AI probeert het antwoord te herschrijven door alle woorden die niet echt nodig zijn, letterlijk weg te halen, terwijl de betekenis hetzelfde blijft. Het is alsof je een boom snoeit tot alleen de vracht overblijft.

Hoe werkt de score?
ConCISE kijkt naar hoeveel woorden er zijn weggehaald in deze drie scenario's. Hoe meer woorden je kunt weghalen zonder de betekenis te verliezen, hoe "vetrijker" (minder beknopt) het originele antwoord was. De score is het gemiddelde van deze drie metingen.

De Proef: De "Kookwedstrijd"

Om te testen of hun nieuwe schaar echt werkt, hebben de onderzoekers een proef gedaan:

  • Ze namen normale antwoorden van een AI.
  • Ze lieten een andere AI deze antwoorden opzettelijk lang en saai maken (door er veel herhalingen en onzin aan toe te voegen, alsof je een klein stukje vlees opblaast tot een hele koe).
  • Vervolgens vroegen ze echte mensen: "Welk antwoord is beknopter?" (op een schaal van 1 tot 5).
  • Daarna lieten ze hun nieuwe ConCISE-tool de antwoorden beoordelen.

Het Resultaat:
De "slimme schaar" (ConCISE) bleek bijna perfect te matchen met wat de mensen dachten. Waar mensen zeiden: "Dit antwoord is te langdradig!", zei de tool ook: "Ja, hier zit veel overbodig vet in."
Vergelijk dit met andere methoden die gewoon vragen aan een AI: "Geef een cijfer van 1 tot 10 voor beknoptheid." Die andere methoden faalden vaak; ze gaven soms hoge scores aan lange, saaie antwoorden. ConCISE was veel slimmer.

Waarom is dit belangrijk?

  1. Besparing: Als je een AI gebruikt die per woord betaalt (zoals bij sommige dure modellen), helpt dit je geld te besparen door te voorkomen dat de AI "opblaast".
  2. Geen menselijke hulp nodig: Je hoeft geen dure experts te betalen om te controleren of een antwoord goed is. De tool doet het zelf.
  3. Duidelijkheid: Het zorgt ervoor dat AI's antwoorden die mensen echt willen lezen: kort, krachtig en direct.

De "Maatstaf" (Conclusie)

Kortom: ConCISE is als een strenge redacteur die zegt: "Stop met opscheppen, kom tot de kern." Het is een slimme, gratis manier om te checken of een AI-antwoord netjes en beknopt is, zonder dat je een voorbeeld van een perfect antwoord nodig hebt. Het helpt ervoor te zorgen dat AI's niet meer praten dan nodig is, net zoals een goede vriend die je precies vertelt wat je wilt weten, zonder de hele dag te kletsen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →