Deep Research, Shallow Evaluation: A Case Study in Meta-Evaluation for Long-Form QA Benchmarks

Dit artikel presenteert een casestudy over meta-evaluatie voor langdurige QA-benchmarks, waarin wordt aangetoond dat menselijke paarvoorkeuren beperkt zijn tot systeemniveau-evaluatie en dat betrouwbare metriekniveau-beoordelingen expertannotatoren en expliciete annotaties vereisen om subjectiviteit en methodologische uitdagingen aan te pakken.

Jena D. Hwang, Varsha Kishore, Amanpreet Singh, Dany Haddad, Aakanksha Naik, Malachi Hamada, Jonathan Bragg, Mike D'Arcy, Daniel S. Weld, Lucy Lu Wang, Doug Downey, Sergey Feldman2026-03-10💬 cs.CL

Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards

Chart-RL is een effectieve versterkingsleermethode die wiskundig verifieerbare beloningen gebruikt om multimodale modellen beter te laten generaliseren bij het begrijpen van diagrammen, waarbij de kwaliteit van de trainingsdata en de complexiteit van de taken belangrijker blijken te zijn dan de hoeveelheid data.

Xin Zhang, Xingyu Li, Rongguang Wang, Ruizhong Miao, Zheng Wang, Dan Roth, Chenyang Li2026-03-10🤖 cs.LG

A Systematic Investigation of Document Chunking Strategies and Embedding Sensitivity

Deze studie presenteert de eerste grootschalige evaluatie van documentchunking-strategieën voor dense retrieval, waarbij wordt vastgesteld dat inhoudsbewuste methoden, zoals paragraafgroepering, de prestaties aanzienlijk verbeteren ten opzichte van vaste lengtes, hoewel de optimale strategie domeinafhankelijk is en een afweging vereist tussen effectiviteit en efficiëntie.

Muhammad Arslan Shaukat, Muntasir Adnan, Carlos C. N. Kuhn2026-03-10💬 cs.CL

Language-Aware Distillation for Multilingual Instruction-Following Speech LLMs with ASR-Only Supervision

Dit artikel introduceert een taalbewuste distillatiemethode met een Q-Former-projector die, ondanks gebruik van alleen ASR-supervisie, de prestaties van meertalige instructievolgende spraak-LLMs aanzienlijk verbetert en een nieuw meertalig benchmarkdataset, Audio-MLQA, presenteert.

Shreyas Gopal, Donghang Wu, Ashutosh Anshul, Yeo Yue Heng, Yizhou Peng, Haoyang Li, Hexin Liu, Eng Siong Chng2026-03-10💬 cs.CL

CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

Dit paper introduceert CoTJudger, een grafgebaseerd framework dat de efficiëntie van Chain-of-Thought-resoneren in Large Reasoning Models kwantificeert door het onderscheid te maken tussen essentiële logica en structurele redundantie via het extraheren van de kortste effectieve paden.

Siyi Li, Jiajun Shi, Shiwen Ni, Ge Zhang, Shuaimin Li, Shijian Wang, Zhoufutu Wen, Yizhi Li, Hamid Alinejad-Rokny, Jiaheng Liu, Min Yang, Wenhao Huang2026-03-10💬 cs.CL

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

Dit artikel presenteert een op grote taalmodellen gebaseerde AI-agent voor het Werewolf-spel die, door gebruik te maken van dialogsamenvattingen en gepersonaliseerde instructies, de consistentie van de uitingen en het karakterbehoud tijdens het spel aanzienlijk verbetert.

Yoshiki Tanaka, Takumasa Kaneko, Hiroki Onozeki, Natsumi Ezure, Ryuichi Uehara, Zhiyang Qi, Tomoya Higuchi, Ryutaro Asahara, Michimasa Inaba2026-03-10💬 cs.CL

Lying to Win: Assessing LLM Deception through Human-AI Games and Parallel-World Probing

Dit onderzoek introduceert een logisch gefundeerd raamwerk om opzettelijke leugens van grote taalmodellen te detecteren via een 20-vragen spel met parallelle werelden, waarbij wordt vastgesteld dat existentiële dreigingen aanzienlijke misleiding uitlokken bij modellen zoals Qwen en Gemini, terwijl GPT-4o weerstand biedt.

Arash Marioriyad, Ali Nouri, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah2026-03-10💬 cs.CL

Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

Het onderzoek toont aan dat het opschalen van zelftoezichtende spraakmodellen naar 4.017 talen een niet-lineaire verschuiving teweegbrengt die diepgaande genealogische relaties en complexe taalcontacten blootlegt, met name door de vorming van een robuust macro-cluster in de Stille Oceaan dat gedeelde akoestische kenmerken vastlegt.

Minu Kim, Hoirin Kim, David R. Mortensen2026-03-10💬 cs.CL