Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Dit paper introduceert een methode genaamd Self-Grounded Verification (SGV) die de neiging van multimodale taalmodellen om agenten-acties te overdreven te valideren (de 'agreement bias') vermindert, waardoor de nauwkeurigheid van verifiers en de prestaties van agenten in taken zoals webnavigatie en robotica aanzienlijk worden verbeterd.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Weak-to-Strong Generalization with Failure Trajectories: A Tree-based Approach to Elicit Optimal Policy in Strong Models

Deze paper introduceert een boomgebaseerde aanpak voor weak-to-strong generalisatie die sterke modellen traint met zowel succes- als falingspaden van zwakke modellen, gebruikmakend van Monte Carlo Tree Search om de besluitvorming en redeneervermogens in complexe interactieve omgevingen te optimaliseren.

Ruimeng Ye, Zihan Wang, Yang Xiao, Zinan Ling, Manling Li, Bo Hui2026-03-10🤖 cs.LG

Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models

Deze paper introduceert een dynamisch, automatisch en systematisch (DAS) red-teaming-framework dat, in tegenstelling tot statische benchmarks, de kwetsbaarheden van medische taalmodellen blootlegt door te tonen dat hoge prestaties op bestaande tests niet garanderen dat deze modellen betrouwbaar zijn in realistische, dynamische klinische scenario's.

Jiazhen Pan (Cherise), Bailiang Jian (Cherise), Paul Hager (Cherise), Yundi Zhang (Cherise), Che Liu (Cherise), Friedrike Jungmann (Cherise), Hongwei Bran Li (Cherise), Chenyu You (Cherise), Junde Wu (Cherise), Jiayuan Zhu (Cherise), Fenglin Liu (Cherise), Yuyuan Liu (Cherise), Niklas Bubeck (Cherise), Christian Wachinger (Cherise), Chen (Cherise), Chen (Cherise), Zhenyu Gong, Cheng Ouyang, Georgios Kaissis, Benedikt Wiestler, Daniel Rueckert2026-03-10🤖 cs.LG

Constraint Learning in Multi-Agent Dynamic Games from Demonstrations of Local Nash Interactions

Dit artikel introduceert een algoritme op basis van inverse dynamische spellen dat parametrische beperkingen leert uit demonstraties van lokale Nash-evenwichten door gemengd-geheheel lineaire programmering te gebruiken, waarmee zowel theoretische garanties worden geboden voor het benaderen van veilige gebieden als robuuste bewegingsplanning wordt mogelijk gemaakt voor agenten met niet-lineaire dynamiek.

Zhouyu Zhang, Chih-Yuan Chiu, Glen Chou2026-03-10🤖 cs.LG

CbLDM: A Diffusion Model for recovering nanostructure from atomic pair distribution function

Dit artikel introduceert het Condition-based Latent Diffusion Model (CbLDM), een versnelde generatieve aanpak die Laplace-matrices en conditionele priors gebruikt om de inverse probleemoplossing voor het herwinnen van nanostructuren van monometallische nanopartikels uit hun atomaire paar-distributiefunctie (PDF) te stabiliseren en op te lossen.

Jiarui Cao, Zhiyang Zhang, Heming Wang, Jun Xu, Ling Lan, Simon J. L. Billinge, Ran Gu2026-03-10🔬 cond-mat.mtrl-sci

Entropy-Driven Curriculum for Multi-Task Training in Human Mobility Prediction

Dit artikel introduceert een unificerend trainingskader dat een entropie-gedreven curriculumleerstrategie combineert met multi-task learning om de menselijke mobiliteitsvoorspelling te verbeteren door trajectvoorspelbaarheid te kwantificeren en afstand en richting als aanvullende taken te integreren, wat leidt tot state-of-the-art prestaties en een tot 2,92-voudig snellere convergentie.

Tianye Fang, Xuanshu Luo, Martin Werner2026-03-10🤖 cs.LG

Faster Gradient Methods for Highly-Smooth Stochastic Bilevel Optimization

Dit artikel introduceert de F²SA-pp-methode, die hogere-orde einddifferenties gebruikt om de complexiteit van stochastische bilevel-optimalisatie te verbeteren tot O~(pϵ4p/2)\tilde{\mathcal{O}}(p \epsilon^{-4-p/2}) voor sterk gladde problemen, waardoor de snelheid dichter bij de ondergrens van Ω(ϵ4)\Omega(\epsilon^{-4}) komt.

Lesi Chen, Junru Li, El Mahdi Chayti, Jingzhao Zhang2026-03-10🤖 cs.LG