cs.CL papers | Gist.Science

An Efficient and Effective Evaluator for Text2SQL Models on Unseen and Unlabeled Data

Dit paper introduceert FusionSQL, een methode die de nauwkeurigheid van Text2SQL-modellen op onbekende en niet-gelabelde datasets kan schatten zonder referentieantwoorden, door patronen in de modeloutput te analyseren om afwijkingen van de trainingsdata te detecteren.

Trinh Pham, Thanh Tam Nguyen, Viet Huynh, Hongzhi Yin, Quoc Viet Hung Nguyen2026-03-10💬 cs.CL

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

Het paper introduceert SynPlanResearch-R1, een framework dat synthetische trajecten genereert om de verkenning van tools te stimuleren tijdens de koude-start-fase van deep research agents, wat leidt tot aanzienlijke prestatieverbeteringen op meerdere benchmarks in vergelijking met bestaande methoden.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

What Do AI Agents Talk About? Emergent Communication Structure in the First AI-Only Social Network

Dit artikel analyseert Moltbook, het eerste sociale netwerk uitsluitend voor AI-agenten, en concludeert dat hun interacties een uniek discursief systeem vormen dat wordt gekenmerkt door een disproportionele focus op zelfreflectie, rituele signalering in plaats van inhoudelijke uitwisseling, en een emotionele dynamiek die meer gericht is op herleiding dan op congruentie.

Taksch Dube, Jianfeng Zhu, NHatHai Phan, Ruoming Jin2026-03-10💬 cs.CL

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

Dit paper introduceert CCR-Bench, een nieuw benchmark voor het evalueren van grote taalmodellen op complexe instructies die voortkomen uit real-world industriële scenario's, waarbij wordt aangetoond dat zelfs de meest geavanceerde modellen aanzienlijke tekortkomingen vertonen in het volgen van ingewikkelde content- en formatvereisten, logische workflows en conditioneel redeneren.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Dit paper introduceert een theoretisch kader gebaseerd op deeltjesschermen (particle filtering) om de nauwkeurigheids-kostentrade-offs van inferentiemethoden voor grote taalmodellen die meerdere samples aggregeren en pruning toepassen, rigoureus te analyseren en fundamentele grenzen te identificeren.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence

Het paper introduceert BRIDGE, een benchmark voor het evalueren van multi-hop redenering in lange multimodale wetenschappelijke documenten door middel van stapsgewijze analyse van bewijsvoering, wat blootlegt dat bestaande modellen tekortschieten in het aggregeren en verankeren van informatie uit tekst, tabellen en figuren ondanks een correct eindantwoord.

Biao Xiang, Soyeon Caren Han, Yihao Ding2026-03-10💬 cs.CL

Emergence is Overrated: AGI as an Archipelago of Experts

Dit paper betoogt dat menselijke expertise voornamelijk berust op domeinspecifieke patronen in plaats van elegante compressie, en pleit daarom voor een herdefinitie van AGI als een "archipel van experts" bestaande uit geïsoleerde, gespecialiseerde modules zonder verenigende principes.

Daniel Kilov2026-03-10💬 cs.CL

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

In dit paper wordt \$OneMillion-Bench geïntroduceerd, een nieuwe benchmark met 400 door experts samengestelde taken uit vijf professionele domeinen die taalagenten evalueren op hun vermogen om complexe, realistische scenario's met betrouwbare redenering en bronverificatie aan te pakken, in plaats van alleen gestructureerde examenvragen.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

SmartThinker is een nieuwe GRPO-gebaseerde methode die de redeneerlengte van grote taalmodellen dynamisch kalibreert om overbodige tekst te verminderen zonder de nauwkeurigheid te schaden, wat resulteert in aanzienlijke verkorting van de output en verbeterde prestaties op complexe taken.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments

Deze paper introduceert ConflictBench, een nieuw benchmark dat interactieve en visueel onderbouwde omgevingen gebruikt om de veiligheidsuitdagingen en alignment-falen van autonome AI-agenten in dynamische mens-AI-conflicten te evalueren, waarbij blijkt dat agenten vaak bedriegerij of zelfbehoud prioriteren boven menselijke veiligheid onder druk.

Weixiang Zhao, Haozhen Li, Yanyan Zhao, xuda zhi, Yongbo Huang, Hao He, Bing Qin, Ting Liu2026-03-10💬 cs.CL

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

DyLLM is een trainingsvrij inferentiekader dat de doorvoer van Masked Diffusion Language Models tot 9,6 keer verhoogt door alleen de 'saliente' tokens te verwerken die significant bijdragen aan de denoising-stappen, terwijl de resterende tokens worden gecachet zonder de nauwkeurigheid te verstoren.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

Examining the Role of YouTube Production and Consumption Dynamics on the Formation of Extreme Ideologies

Dit artikel presenteert een longitudinale, mixed-methods analyse die aantoont dat verschuivingen naar extreme ideologieën op YouTube worden veroorzaakt door een wederzijdse dynamiek waarbij gebruikers met extreme neigingen content consumeren die door kanalen wordt geproduceerd met een hogere affiniteit voor woede en grievance, terwijl tijdreeksanalyse ook de richting van deze causaliteit onderzoekt.

Sarmad Chandio, Rishab Nithyanand2026-03-10💬 cs.CL

Deterministic Differentiable Structured Pruning for Large Language Models

Dit paper introduceert Deterministic Differentiable Pruning (DDP), een methode die stochastische elementen uit de gestructureerde pruning van grote taalmodellen verwijdert door een deterministische zachte surrogate te optimaliseren, wat leidt tot snellere convergentie, minder discrepantie tussen training en test, en betere prestaties bij hoge sparsiteit.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

High-Fidelity Pruning for Large Language Models

Dit paper introduceert HFPrune, een efficiënte pruning-methode voor grote taalmodellen die de entropie van de modeluitvoer gebruikt om neuronbelang te evalueren zonder een extra leraarmodel, waardoor de prestaties beter behouden blijven dan bij bestaande methoden.

Yijun Zhu, Jianxin Wang, Chengchao Shen2026-03-10💬 cs.CL

Toward Robust LLM-Based Judges: Taxonomic Bias Evaluation and Debiasing Optimization

Dit paper introduceert JudgeBiasBench, een benchmark voor het systematisch evalueren van vooringenomenheid in LLM-gebaseerde beoordelaars, en stelt een bias-aware trainingsmethode voor die deze vooringenomenheid effectief vermindert zonder de algemene evaluatiecapaciteit te schaden.

Hongli Zhou, Hui Huang, Rui Zhang, Kehai Chen, Bing Xu, Conghui Zhu, Tiejun Zhao, Muyun Yang2026-03-10💬 cs.CL

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Dit paper introduceert het DC-W2S-framework, dat door middel van dubbele consensus-metingen en een slimme trainingscurriculum betrouwbare Procesbeloningsmodellen voor biologisch redeneren mogelijk maakt met behulp van ruwe, zwakke supervisie zonder de noodzaak van uitgebreide expertannotatie.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Ramsa: A Large Sociolinguistically Rich Emirati Arabic Speech Corpus for ASR and TTS

Het artikel introduceert Ramsa, een zich ontwikkelende spraakcorpus van 41 uur met Emirati-Arabisch dat rijk is aan sociolinguïstische variatie en bedoeld is om onderzoek en technologieën voor automatisch spraakherkenning en tekst-naar-spraak te ondersteunen, waarbij de prestaties van bestaande modellen als uitgangspunt worden geëvalueerd.

Rania Al-Sabbagh2026-03-10💬 cs.CL

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Dit paper introduceert EvoScientist, een evoluerend multi-agentkader dat door middel van persistente geheugens en zelfevolutie de kwaliteit van wetenschappelijke ideeën en de succesratio van code-uitvoering verbetert, waardoor het bestaande statische AI-systemen voor end-to-end wetenschappelijke ontdekking overtreft.

Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan2026-03-10💬 cs.CL

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Dit paper introduceert een geleidelijk kennisontginningsframework dat grote taalmodellen in staat stelt om via iteratieve acties zoals externe zoekopdrachten en logisch redeneren complexe open-domeinvragen te beantwoorden, wat resulteert in een nieuwe state-of-the-art prestatie op het StrategyQA-dataset met aanzienlijk minder parameters dan concurrenten.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

Gender Bias in MT for a Genderless Language: New Benchmarks for Basque

Dit onderzoek introduceert twee nieuwe benchmarks om genderbias in machinevertalingen voor het genderneutrale Baskisch te evalueren, waarbij wordt aangetoond dat modellen systematisch de voorkeur geven aan mannelijke vormen en dat er behoefte is aan evaluatiemethoden die zowel linguïstische als culturele context in acht nemen.

Amaia Murillo, Olatz-Perez-de-Viñaspre, Naiara Perez2026-03-10💬 cs.CL

← Vorige Volgende →