Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

Dit paper introduceert CoCoA, een trainingsvrije decoderingsalgoritme dat hallucinaties in grote taalmodellen vermindert door de inconsistentie van representaties tussen de interne lagen te detecteren en te straffen, waardoor de feitelijke juistheid van de output zonder hertraining wordt verbeterd.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour Soofi2026-03-10💬 cs.CL

To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

Dit paper introduceert M2RL, een studie die vergelijkt of het mengen van multi-domein Reinforcement Learning met Verifieerbare Beloningen (RLVR) of het apart trainen en vervolgens samenvoegen van modellen de beste aanpak is voor het ontwikkelen van krachtige, algemene Large Language Models, waarbij wordt geconcludeerd dat domeinen vaak synergetisch werken en weinig interferentie vertonen.

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Het paper introduceert SkillsBench, een benchmark die aantoont dat hoewel zorgvuldig samengestelde vaardigheden de prestaties van LLM-agenten aanzienlijk kunnen verbeteren, zelf gegenereerde vaardigheden doorgaans geen meerwaarde bieden en de effectiviteit sterk varieert per domein.

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?

Dit artikel toont aan dat een lichtgewicht, geautomatiseerde AI-pipeline, aangedreven door geavanceerde taalmodellen en geoptimaliseerd voor citatieverificatie, geslaagde oplossingen kan genereren voor complexe wiskundeproblemen op onderzoeksniveau, waaronder ongepubliceerde vragen en problemen uit de ICCM-competitie.

Lve Meng (University of Science,Technology of China, Zhongguancun Academy), Weilong Zhao (Université Paris Cité), Yanzhi Zhang (Zhongguancun Academy), Haoxiang Guan (Zhongguancun Academy), Jiyan He (Zhongguancun Academy)2026-03-10🔢 math

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

Dit artikel introduceert de Mean Velocity Policy (MVP), een generatieve beleidsfunctie die een gemiddeld snelheidsveld modelleert met een onmiddellijke snelheidsbeperking om expressieve, deterministische actiegeneratie in één stap te bereiken, wat resulteert in state-of-the-art prestaties en aanzienlijke snelheidswinst in robuuste manipulatietaken.

Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li2026-03-10🤖 cs.LG

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

Het paper introduceert CogitoRAG, een cognitief gestuurd RAG-framework dat hallucinaties vermindert door menselijk episodisch geheugen na te bootsen via gist-gebaseerde kennisgrafiekconstructie, query-decompositie en semantische diffusie, wat leidt tot superieure prestaties op complexe vraag- en antwoordtaken.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun Yu2026-03-10💬 cs.CL

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

Dit paper introduceert CondMedQA, het eerste benchmark voor conditioneel biomedisch vragen beantwoorden, en Condition-Gated Reasoning (CGR), een nieuw raamwerk dat kennisgrafiek-paden selectief activeert of verwijdert op basis van patiëntspecifieke omstandigheden om de betrouwbaarheid van medische redenering te verbeteren.

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei Han2026-03-10💬 cs.CL

Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

Dit artikel introduceert een uitgebreid benchmarkkader voor multi-agent reinforcement learning in de CityLearn-omgeving, waarbij wordt vastgesteld dat decentrale training en uitvoering (DTDE) samen met tijdsafhankelijk leren superieure prestaties leveren op diverse duurzaamheids- en robuustheidskpi's voor stedelijke energiesystemen.

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

Deze paper introduceert MrBERT, een familie van moderne meertalige encodermodellen die door middel van vocabulaire-, domein- en dimensionale aanpassing, inclusief Matryoshka Representation Learning, state-of-the-art prestaties bereikt op Catalaanse en Spaanse taken en gespecialiseerde domeinen zoals biomedische en juridische toepassingen.

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG