One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Dit paper introduceert One-Eval, een agentisch systeem dat natuurlijke taalverzoeken omzet in traceerbare en aanpasbare evaluatieworkflows voor grote taalmodellen, waardoor de handmatige inspanning voor benchmarkselectie, dataverwerking en rapportage aanzienlijk wordt verminderd.

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang2026-03-11💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

Dit paper introduceert een Chow-Liu-baas voor het ordenen van tekstchunks in Chain-of-Agents-systemen, waarbij een breedte-eerst-doorloop van de afgeleide afhankelijkheidsboom de informatieverlies minimaliseert en consequent betere prestaties levert dan standaard of semantische ordeningsmethodes op lange-contexttaken.

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. C2026-03-11💬 cs.CL

CREATE: Testing LLMs for Associative Creativity

Dit paper introduceert CREATE, een nieuwe benchmark voor het evalueren van het vermogen van taalmodellen tot associatief redeneren door concepten op specifieke en diverse manieren met elkaar te verbinden, waarbij blijkt dat de meest geavanceerde modellen beter presteren maar dat het benchmark nog niet verzadigd is en 'thinking'-modellen niet altijd effectiever zijn.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett2026-03-11💬 cs.CL