NC-Bench: An LLM Benchmark for Evaluating Conversational Competence
Der NC-Bench-Evaluierungsrahmen bewertet die konversationelle Kompetenz von Large Language Models nicht anhand von Inhalten, sondern anhand der strukturellen und formalen Aspekte natürlicher Gespräche, indem er auf dem IBM Natural Conversation Framework basierende Testsets für grundlegende Sequenzen, RAG-Integration und komplexe Anfragen nutzt.