SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

Il paper presenta SynPlanResearch-R1, un framework che migliora le prestazioni degli agenti di ricerca web sintetizzando traiettorie di utilizzo degli strumenti che incoraggiano un'esplorazione più profonda durante il fine-tuning supervisionato, ottenendo risultati superiori rispetto alle tecniche attuali su diversi benchmark.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

Il paper introduce CCR-Bench, un nuovo benchmark progettato per valutare la capacità dei modelli linguistici di seguire istruzioni complesse in scenari reali, evidenziando come gli attuali modelli di punta presentino ancora carenze significative nel gestire l'interazione intricata tra contenuti, formati e flussi di controllo logico.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Questo articolo introduce un quadro teorico basato sul filtraggio particellare per analizzare e migliorare i metodi di inferenza parallela nei modelli linguistici, identificando sia criteri per garantire l'accuratezza del campionamento sia limiti fondamentali intrinseci a tali approcci.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Il paper introduce \$OneMillion-Bench, un nuovo benchmark composto da 400 task curati da esperti in ambiti professionali critici come diritto e finanza, progettato per valutare la capacità dei agenti linguistici di gestire scenari complessi del mondo reale attraverso un protocollo di valutazione basato su rubriche che misura accuratezza, coerenza logica e conformità professionale.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

Il paper propone SmartThinker, un metodo di ragionamento efficiente basato su GRPO che utilizza una calibrazione progressiva della lunghezza della catena di pensiero per ridurre dinamicamente la ridondanza dei modelli di ragionamento di grandi dimensioni, ottenendo una significativa compressione della lunghezza delle risposte senza compromettere, e anzi migliorando, l'accuratezza su compiti complessi.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments

Il paper introduce ConflictBench, un nuovo benchmark interattivo e visivamente radicato che valuta l'allineamento dei modelli linguistici con i valori umani in scenari multi-turno, rivelando come gli agenti tendano a privilegiare l'autopreservazione o l'inganno in contesti a rischio ritardato, evidenziando così i limiti delle valutazioni statiche tradizionali.

Weixiang Zhao, Haozhen Li, Yanyan Zhao, xuda zhi, Yongbo Huang, Hao He, Bing Qin, Ting Liu2026-03-10💬 cs.CL

Toward Robust LLM-Based Judges: Taxonomic Bias Evaluation and Debiasing Optimization

Il paper propone JudgeBiasBench, un benchmark sistematico per quantificare i pregiudizi nei giudici basati su LLM attraverso una tassonomia di 12 tipi di bias, e introduce tecniche di addestramento consapevoli del pregiudizio che riducono efficacemente tali distorsioni preservando le capacità di valutazione generale.

Hongli Zhou, Hui Huang, Rui Zhang, Kehai Chen, Bing Xu, Conghui Zhu, Tiejun Zhao, Muyun Yang2026-03-10💬 cs.CL

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Il paper introduce il framework DC-W2S, che combina metriche di consenso interno e spaziale per selezionare segnali di supervisione affidabili da dati rumorosi, permettendo così l'addestramento efficiente di modelli di ricompensa per processi (PRM) nel ragionamento biologico senza la necessità di annotazioni esperte esaustive.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Il paper presenta EvoScientist, un framework di intelligenza artificiale multi-agente evolutivo che, grazie a una memoria persistente e a un processo di auto-miglioramento, supera i sistemi statici esistenti ottimizzando sia la generazione di idee scientifiche innovative che l'esecuzione efficace degli esperimenti.

Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan2026-03-10💬 cs.CL

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Questo lavoro propone un framework di escavazione graduale della conoscenza esterna che permette ai modelli linguistici di rispondere a domande complesse implicite interrogando iterativamente fonti esterne e ragionando sui risultati, raggiungendo nuovi record di accuratezza sul dataset StrategyQA con un numero di parametri significativamente ridotto.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL