CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

Dit paper introduceert CCR-Bench, een nieuw benchmark voor het evalueren van grote taalmodellen op complexe instructies die voortkomen uit real-world industriële scenario's, waarbij wordt aangetoond dat zelfs de meest geavanceerde modellen aanzienlijke tekortkomingen vertonen in het volgen van ingewikkelde content- en formatvereisten, logische workflows en conditioneel redeneren.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer intelligente, maar nog jonge assistent hebt die alles kan lezen en schrijven. We noemen deze assistent een "Groot Taalmodel" (LLM). Tot nu toe hebben we deze assistenten getest op simpele taken, zoals: "Schrijf een gedicht over een kat" of "Geef me een recept voor pannenkoeken". Ze doen dit vaak heel goed.

Maar in het echte leven, op het werk of in de ziekenhuizen, zijn taken veel ingewikkelder. Het is alsof je de assistent vraagt: "Schrijf een medisch verslag, maar gebruik precies 150 woorden, vermijd de woorden 'ziek' en 'ziekdom', zorg dat de zinnen in een bepaalde volgorde staan, en als de patiënt angstig is, moet je een specifiek advies geven, anders niet."

Dit is waar het nieuwe onderzoek CCR-Bench om de hoek komt kijken.

Wat is CCR-Bench eigenlijk?

CCR-Bench is als een grote, moeilijke proefexamen voor deze slimme computers. De onderzoekers (van China Mobile) hebben bedacht dat de oude tests te makkelijk waren. Ze keken alleen of de assistent losse regels kon volgen. CCR-Bench kijkt naar hoe goed ze complexe, verweven regels kunnen volgen die lijken op echte, moeilijke werksituaties.

Het examen bestaat uit drie soorten moeilijke vragen:

  1. De "Vorm en Inhoud" Dans:

    • De analogie: Stel je voor dat je een cake moet bakken (de inhoud), maar je mag alleen een vierkante vorm gebruiken (de vorm), en je moet de cake zo bakken dat hij eruitziet als een bloem (de inhoud is weer afhankelijk van de vorm).
    • In het onderzoek: De computer moet tekst schrijven die niet alleen de juiste informatie bevat, maar ook strikt voldoet aan specifieke vormeisen (zoals aantal woorden, specifieke opmaak, of een bepaald lettertype). De inhoud en de vorm zijn zo aan elkaar verbonden dat als je de vorm verandert, de inhoud ook moet veranderen.
  2. De "Logische Stroom" Labyrint:

    • De analogie: Stel je voor dat je een detective bent. Je moet een zaak oplossen, maar je kunt niet zomaar alles doen. Je moet eerst een getuige spreken. Als die getuige boos is, moet je een andere route nemen. Als hij blij is, moet je een kaart raadplegen. En soms moet je een onder-zoek doen (een sub-taak) voordat je verder kunt.
    • In het onderzoek: De computer moet een proces doorlopen met veel stappen. Het moet beslissingen nemen ("Als dit gebeurt, doe dan dat"), tools gebruiken (zoals een database opzoeken) en onthouden wat er eerder is gebeurd. Als de computer op één stap de verkeerde richting op gaat, faalt de hele taak.
  3. De "Echte Wereld" Simulatie:

    • De analogie: In plaats van een fictief verhaal te schrijven, moet de assistent nu echt werken in een ziekenhuis, een luchtvaartmaatschappij of een klantenservice. Hier zijn de regels niet zomaar regels; ze zijn gebaseerd op echte, soms gevaarlijke situaties.
    • In het onderzoek: Ze hebben echte data gebruikt (zoals medische gesprekken) om te testen of de computer echt begrijpt wat er nodig is in een professionele omgeving, zonder halve waarheden of fouten te maken.

Wat leerden ze van het examen?

Toen ze de slimste computers ter wereld (zoals GPT-4, Gemini, en DeepSeek) dit examen lieten maken, was het resultaat verrassend en een beetje zorgelijk:

  • Ze zijn slim, maar niet slim genoeg voor het echte werk. Zelfs de beste modellen faalden vaak als de regels te complex werden.
  • De "Denk-modus" helpt, maar is geen wondermiddel. Sommige modellen hebben een manier om eerst na te denken voordat ze antwoorden (zoals een mens die even stilzit om een oplossing te bedenken). Dit hielp ze enorm, maar zelfs dan haalden ze niet perfect.
  • De "Vorm" is de zwakke schakel. Computers zijn goed in het vinden van informatie, maar ze hebben moeite om die informatie in een heel specifiek jasje te steken (bijvoorbeeld: "Schrijf precies 3 zinnen, geen meer, geen minder").
  • Het gat is groot. Er is een enorm verschil tussen wat de computers nu kunnen en wat we nodig hebben voor complexe taken in de echte wereld.

Waarom is dit belangrijk?

Tot nu toe dachten we dat computers bijna klaar waren om onze taken over te nemen. CCR-Bench zegt: "Nee, wacht even. Ze zijn nog niet klaar voor de zware klussen."

Dit onderzoek is als een spiegel die we voor de kunstmatige intelligentie houden. Het laat zien waar de zwakke plekken zitten. Door deze nieuwe, moeilijkere test te gebruiken, kunnen onderzoekers hun modellen beter trainen. Het doel is om binnenkort assistenten te hebben die niet alleen "leuk" praten, maar die echt complexe, gevaarlijke of kritieke taken in ziekenhuizen, fabrieken en kantoren veilig en correct kunnen uitvoeren.

Kortom: CCR-Bench is de nieuwe, strenge leraar die de slimme computers dwingt om écht volwassen te worden.