MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Dit paper introduceert MMTU, een uitgebreid benchmark met meer dan 28.000 vragen over 25 real-world tabellataken, om de complexiteit van het begrijpen, redeneren en manipuleren van tabellen door geavanceerde AI-modellen te evalueren en aan te tonen dat er nog aanzienlijke ruimte voor verbetering is.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

EROICA: Online Performance Troubleshooting for Large-scale Model Training

Dit paper introduceert EROICA, het eerste online systeem voor het oplossen van prestatieproblemen bij het trainen van grote modellen op schaal, dat door middel van gedetailleerde profilering en differentiële observabiliteit succesvol hardware- en softwarefouten diagnoseert op productiesystemen met ongeveer 100.000 GPU's.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan Zhai2026-03-10🤖 cs.LG

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Dit paper introduceert BemaGANv2, een geavanceerde GAN-gebaseerde vocoder voor hoogwaardige en langdurige audio-generatie die gebruikmaakt van innovatieve architecturale wijzigingen en een systematische evaluatie van discriminatorscombinaties om temporale coherentie en harmonische structuur te verbeteren.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

Efficient Algorithms for Logistic Contextual Slate Bandits with Bandit Feedback

Dit artikel introduceert de efficiënte algoritmen Slate-GLM-OFU en Slate-GLM-TS voor het logistische contextuele slate-bandit-probleem, die door lokale planning en globale learing een lage regret van O~(T)\tilde{O}(\sqrt{T}) bereiken met een lage rekentijd per ronde, wat zowel theoretisch wordt onderbouwd als empirisch wordt geverifieerd in synthetische experimenten en praktische toepassingen voor het selecteren van in-context voorbeelden in taalmodellen.

Tanmay Goyal, Gaurav Sinha2026-03-10🤖 cs.LG

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Dit paper introduceert een methode genaamd Self-Grounded Verification (SGV) die de neiging van multimodale taalmodellen om agenten-acties te overdreven te valideren (de 'agreement bias') vermindert, waardoor de nauwkeurigheid van verifiers en de prestaties van agenten in taken zoals webnavigatie en robotica aanzienlijk worden verbeterd.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Weak-to-Strong Generalization with Failure Trajectories: A Tree-based Approach to Elicit Optimal Policy in Strong Models

Deze paper introduceert een boomgebaseerde aanpak voor weak-to-strong generalisatie die sterke modellen traint met zowel succes- als falingspaden van zwakke modellen, gebruikmakend van Monte Carlo Tree Search om de besluitvorming en redeneervermogens in complexe interactieve omgevingen te optimaliseren.

Ruimeng Ye, Zihan Wang, Yang Xiao, Zinan Ling, Manling Li, Bo Hui2026-03-10🤖 cs.LG

Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models

Deze paper introduceert een dynamisch, automatisch en systematisch (DAS) red-teaming-framework dat, in tegenstelling tot statische benchmarks, de kwetsbaarheden van medische taalmodellen blootlegt door te tonen dat hoge prestaties op bestaande tests niet garanderen dat deze modellen betrouwbaar zijn in realistische, dynamische klinische scenario's.

Jiazhen Pan (Cherise), Bailiang Jian (Cherise), Paul Hager (Cherise), Yundi Zhang (Cherise), Che Liu (Cherise), Friedrike Jungmann (Cherise), Hongwei Bran Li (Cherise), Chenyu You (Cherise), Junde Wu (Cherise), Jiayuan Zhu (Cherise), Fenglin Liu (Cherise), Yuyuan Liu (Cherise), Niklas Bubeck (Cherise), Christian Wachinger (Cherise), Chen (Cherise), Chen (Cherise), Zhenyu Gong, Cheng Ouyang, Georgios Kaissis, Benedikt Wiestler, Daniel Rueckert2026-03-10🤖 cs.LG