Deep Research, Shallow Evaluation: A Case Study in Meta-Evaluation for Long-Form QA Benchmarks

Questo studio presenta un caso di meta-valutazione per benchmark di domande e risposte scientifiche lunghe, dimostrando che mentre le preferenze umane a coppie sono adatte per la valutazione a livello di sistema, una valutazione affidabile a livello di metrica richiede annotazioni esplicite ed esperti, fornendo così linee guida per migliorare gli standard di valutazione dei sistemi di ricerca approfondita.

Jena D. Hwang, Varsha Kishore, Amanpreet Singh, Dany Haddad, Aakanksha Naik, Malachi Hamada, Jonathan Bragg, Mike D'Arcy, Daniel S. Weld, Lucy Lu Wang, Doug Downey, Sergey Feldman2026-03-10💬 cs.CL

Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards

Il paper introduce Chart-RL, un metodo di apprendimento per rinforzo che utilizza ricompense matematicamente verificabili per migliorare la comprensione dei grafici nei modelli visione-linguaggio, dimostrando che la complessità dei dati di addestramento è più cruciale della quantità e ottenendo prestazioni superiori rispetto al fine-tuning supervisionato su vari benchmark.

Xin Zhang, Xingyu Li, Rongguang Wang, Ruizhong Miao, Zheng Wang, Dan Roth, Chenyang Li2026-03-10🤖 cs.LG

A Systematic Investigation of Document Chunking Strategies and Embedding Sensitivity

Questo studio presenta la prima valutazione su larga scala di 36 strategie di frammentazione dei documenti, dimostrando che i metodi orientati al contenuto, in particolare il raggruppamento per paragrafi, superano significativamente le divisioni fisse di base nel migliorare l'efficacia del recupero delle informazioni attraverso diversi domini e modelli di embedding.

Muhammad Arslan Shaukat, Muntasir Adnan, Carlos C. N. Kuhn2026-03-10💬 cs.CL

Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment

Il paper presenta Hit-RAG, un framework di allineamento delle preferenze su più stadi che risolve i problemi di diluizione dell'attenzione e allucinazioni nei modelli linguistici multimodali con contesti estesi, migliorando significativamente la capacità di ragionamento e l'uso delle evidenze esterne attraverso un processo di ottimizzazione progressiva.

Junming Liu, Yuqi Li, Shiping Wen, Zhigang Zeng, Tingwen Huang2026-03-10💬 cs.CL

Language-Aware Distillation for Multilingual Instruction-Following Speech LLMs with ASR-Only Supervision

Il paper propone un metodo di distillazione consapevole della lingua che utilizza un banco di query e una rete di gating per addestrare modelli linguistici vocali multilingue con supervisione ASR-only, ottenendo significativi miglioramenti nel seguire istruzioni e nelle risposte a domande audio rispetto ai baselines esistenti.

Shreyas Gopal, Donghang Wu, Ashutosh Anshul, Yeo Yue Heng, Yizhou Peng, Haoyang Li, Hexin Liu, Eng Siong Chng2026-03-10💬 cs.CL

CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

Il paper introduce CoTJudger, un framework guidato da grafi che valuta l'efficienza dei Modelli di Ragionamento su larga scala convertendo le catene di pensiero in grafi di dipendenza per identificare il percorso più breve necessario, permettendo così di distinguere tra logica essenziale e ridondanza strutturale.

Siyi Li, Jiajun Shi, Shiwen Ni, Ge Zhang, Shuaimin Li, Shijian Wang, Zhoufutu Wen, Yizhi Li, Hamid Alinejad-Rokny, Jiaheng Liu, Min Yang, Wenhao Huang2026-03-10💬 cs.CL

Entropy-Aware On-Policy Distillation of Language Models

Il paper propone la "Distillazione On-Policy Consapevole dell'Entropia", un metodo che combina divergenze KL inverse e dirette per gestire l'incertezza dell'insegnante, migliorando la diversità generativa e le prestazioni di ragionamento matematico nei modelli linguistici rispetto alle tecniche di distillazione tradizionali.

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin Lee2026-03-10🤖 cs.LG

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

Questo studio presenta un agente AI per il gioco del Lupacchiotto sviluppato per la sfida AIWolfDial 2024, che migliora la coerenza delle risposte e la coerenza del personaggio integrando riassunti del dialogo e informazioni sulla personalità all'interno di un modello linguistico di grandi dimensioni.

Yoshiki Tanaka, Takumasa Kaneko, Hiroki Onozeki, Natsumi Ezure, Ryuichi Uehara, Zhiyang Qi, Tomoya Higuchi, Ryutaro Asahara, Michimasa Inaba2026-03-10💬 cs.CL

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

Questo lavoro introduce un nuovo compito chiamato Trascrizione Emotiva nella Conversazione (ETC) e un corrispondente dataset giapponese per superare i limiti delle annotazioni emotive tradizionali, consentendo la generazione di descrizioni linguistiche naturali che catturano sfumature emotive complesse e sottili.

Yoshiki Tanaka, Ryuichi Uehara, Koji Inoue, Michimasa Inaba2026-03-10💬 cs.CL

Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

Lo studio dimostra che scalare i modelli di linguaggio auto-supervisionati da 126 a 4.017 lingue rivela un cambiamento qualitativo non lineare che permette di catturare sia le relazioni genealogiche profonde che i contatti linguistici a lungo termine, come evidenziato dalla formazione di un robusto macro-cluster nel Pacifico basato su firme acustiche condivise.

Minu Kim, Hoirin Kim, David R. Mortensen2026-03-10💬 cs.CL