CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases
Die Arbeit stellt CCR-Bench vor, ein umfassendes Benchmark, das die Fähigkeiten von Large Language Models (LLMs) bei der Befolgung komplexer Anweisungen in realen industriellen Szenarien bewertet und dabei erhebliche Defizite selbst bei State-of-the-Art-Modellen aufzeigt.