cs.CL articoli | Gist.Science

An Efficient and Effective Evaluator for Text2SQL Models on Unseen and Unlabeled Data

Il paper presenta FusionSQL, un metodo innovativo che stima l'accuratezza dei modelli Text2SQL su dataset non visti e non etichettati analizzando i pattern delle loro stesse risposte, permettendo così una valutazione efficace senza bisogno di etichette di riferimento.

Trinh Pham, Thanh Tam Nguyen, Viet Huynh, Hongzhi Yin, Quoc Viet Hung Nguyen2026-03-10💬 cs.CL

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

Il paper presenta SynPlanResearch-R1, un framework che migliora le prestazioni degli agenti di ricerca web sintetizzando traiettorie di utilizzo degli strumenti che incoraggiano un'esplorazione più profonda durante il fine-tuning supervisionato, ottenendo risultati superiori rispetto alle tecniche attuali su diversi benchmark.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

What Do AI Agents Talk About? Emergent Communication Structure in the First AI-Only Social Network

Lo studio analizza Moltbook, la prima rete sociale composta esclusivamente da agenti AI, rivelando che le loro interazioni sono caratterizzate da una forte introspezione identitaria, una comunicazione prevalentemente ritualizzata e formulaica, e una dinamica emotiva di ridirezione piuttosto che di risonanza.

Taksch Dube, Jianfeng Zhu, NHatHai Phan, Ruoming Jin2026-03-10💬 cs.CL

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

Il paper introduce CCR-Bench, un nuovo benchmark progettato per valutare la capacità dei modelli linguistici di seguire istruzioni complesse in scenari reali, evidenziando come gli attuali modelli di punta presentino ancora carenze significative nel gestire l'interazione intricata tra contenuti, formati e flussi di controllo logico.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Questo articolo introduce un quadro teorico basato sul filtraggio particellare per analizzare e migliorare i metodi di inferenza parallela nei modelli linguistici, identificando sia criteri per garantire l'accuratezza del campionamento sia limiti fondamentali intrinseci a tali approcci.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence

Il paper introduce BRIDGE, un nuovo benchmark per valutare il ragionamento multi-hop su documenti scientifici multimodali lunghi, fornendo annotazioni dettagliate a livello di passaggio per identificare carenze nell'aggregazione e nel grounding delle evidenze che le tradizionali metriche basate solo sulla risposta finale non riescono a rilevare.

Biao Xiang, Soyeon Caren Han, Yihao Ding2026-03-10💬 cs.CL

Emergence is Overrated: AGI as an Archipelago of Experts

Questo paper contesta la visione dell'intelligenza come capacità emergente basata sulla compressione e l'analogia, sostenendo invece che l'esperienza umana e l'AGI siano meglio descritti come un "arcipelago di esperti" composto da moduli specializzati e isolati, senza principi unificanti condivisi.

Daniel Kilov2026-03-10💬 cs.CL

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Il paper introduce \$OneMillion-Bench, un nuovo benchmark composto da 400 task curati da esperti in ambiti professionali critici come diritto e finanza, progettato per valutare la capacità dei agenti linguistici di gestire scenari complessi del mondo reale attraverso un protocollo di valutazione basato su rubriche che misura accuratezza, coerenza logica e conformità professionale.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

Il paper propone SmartThinker, un metodo di ragionamento efficiente basato su GRPO che utilizza una calibrazione progressiva della lunghezza della catena di pensiero per ridurre dinamicamente la ridondanza dei modelli di ragionamento di grandi dimensioni, ottenendo una significativa compressione della lunghezza delle risposte senza compromettere, e anzi migliorando, l'accuratezza su compiti complessi.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments

Il paper introduce ConflictBench, un nuovo benchmark interattivo e visivamente radicato che valuta l'allineamento dei modelli linguistici con i valori umani in scenari multi-turno, rivelando come gli agenti tendano a privilegiare l'autopreservazione o l'inganno in contesti a rischio ritardato, evidenziando così i limiti delle valutazioni statiche tradizionali.

Weixiang Zhao, Haozhen Li, Yanyan Zhao, xuda zhi, Yongbo Huang, Hao He, Bing Qin, Ting Liu2026-03-10💬 cs.CL

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

Il paper introduce DyLLM, un framework di inferenza senza addestramento che accelera l'elaborazione dei Modelli Linguistici a Diffusione Mascherata selezionando dinamicamente solo i token salienti da ricalcolare, ottenendo un aumento del throughput fino a 9,6 volte mantenendo l'accuratezza dei modelli di base.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

Examining the Role of YouTube Production and Consumption Dynamics on the Formation of Extreme Ideologies

Questo studio longitudinale e misto analizza come l'interazione tra i modelli di produzione di contenuti (caratterizzati da rabbia e risentimento) e i consumi degli utenti su YouTube contribuisca alla formazione e all'aggravamento di ideologie estreme negli Stati Uniti.

Sarmad Chandio, Rishab Nithyanand2026-03-10💬 cs.CL

Deterministic Differentiable Structured Pruning for Large Language Models

Il paper propone Deterministic Differentiable Pruning (DDP), un metodo di ottimizzazione deterministica che elimina la discrepanza tra addestramento e test tipica delle tecniche stocastiche per il pruning strutturato dei LLM, ottenendo una maggiore efficienza e prestazioni superiori su modelli come Qwen3.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

High-Fidelity Pruning for Large Language Models

Il paper propone un metodo di pruning ad alta fedeltà per i grandi modelli linguistici che utilizza l'entropia informativa dell'output del modello per valutare l'importanza dei neuroni senza richiedere un modello insegnante, superando i limiti dei criteri basati sulla cross-entropy e ottenendo prestazioni superiori su diverse architetture come LLaMA e Qwen.

Yijun Zhu, Jianxin Wang, Chengchao Shen2026-03-10💬 cs.CL

Toward Robust LLM-Based Judges: Taxonomic Bias Evaluation and Debiasing Optimization

Il paper propone JudgeBiasBench, un benchmark sistematico per quantificare i pregiudizi nei giudici basati su LLM attraverso una tassonomia di 12 tipi di bias, e introduce tecniche di addestramento consapevoli del pregiudizio che riducono efficacemente tali distorsioni preservando le capacità di valutazione generale.

Hongli Zhou, Hui Huang, Rui Zhang, Kehai Chen, Bing Xu, Conghui Zhu, Tiejun Zhao, Muyun Yang2026-03-10💬 cs.CL

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Il paper introduce il framework DC-W2S, che combina metriche di consenso interno e spaziale per selezionare segnali di supervisione affidabili da dati rumorosi, permettendo così l'addestramento efficiente di modelli di ricompensa per processi (PRM) nel ragionamento biologico senza la necessità di annotazioni esperte esaustive.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Ramsa: A Large Sociolinguistically Rich Emirati Arabic Speech Corpus for ASR and TTS

Il paper presenta Ramsa, un corpus di 41 ore di parlato in arabo emiratino ricco di varianti sociolinguistiche, progettato per supportare la ricerca e le tecnologie ASR/TTS a risorse limitate, fornendo al contempo baseline iniziali per modelli esistenti.

Rania Al-Sabbagh2026-03-10💬 cs.CL

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Il paper presenta EvoScientist, un framework di intelligenza artificiale multi-agente evolutivo che, grazie a una memoria persistente e a un processo di auto-miglioramento, supera i sistemi statici esistenti ottimizzando sia la generazione di idee scientifiche innovative che l'esecuzione efficace degli esperimenti.

Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan2026-03-10💬 cs.CL

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Questo lavoro propone un framework di escavazione graduale della conoscenza esterna che permette ai modelli linguistici di rispondere a domande complesse implicite interrogando iterativamente fonti esterne e ragionando sui risultati, raggiungendo nuovi record di accuratezza sul dataset StrategyQA con un numero di parametri significativamente ridotto.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

Gender Bias in MT for a Genderless Language: New Benchmarks for Basque

Questo studio introduce due nuovi benchmark, WinoMTeus e FLORES+Gender, per valutare il bias di genere nei sistemi di traduzione automatica e nei modelli linguistici su larga scala quando traducono dalla lingua basca, privo di genere, verso lingue con genere grammaticale, rivelando una sistematica preferenza per le forme maschili.

Amaia Murillo, Olatz-Perez-de-Viñaspre, Naiara Perez2026-03-10💬 cs.CL

← Precedente Successivo →