CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases
Il paper introduce CCR-Bench, un nuovo benchmark progettato per valutare la capacità dei modelli linguistici di seguire istruzioni complesse in scenari reali, evidenziando come gli attuali modelli di punta presentino ancora carenze significative nel gestire l'interazione intricata tra contenuti, formati e flussi di controllo logico.