Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Dit paper introduceert de STAR-benchmark, een multi-agent evaluatiekader dat het strategische redeneren en snelle besluitvorming van grote taalmodellen in nul-som omgevingen test, waarbij een significante kloof wordt blootgelegd tussen diep redeneren en effectieve uitvoering onder tijdsdruk.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao Zhu2026-03-11🤖 cs.AI

Robust Regularized Policy Iteration under Transition Uncertainty

Deze paper introduceert Robust Regularized Policy Iteration (RRPI), een methode voor offline versterkend leren die prestatie-degradatie door verdelingsverschuiving en transitie-onzekerheid aanpakt door het leerproces te formuleren als robuuste optimalisatie tegenover de slechtst mogelijke dynamica binnen een onzekerheidsset, wat resulteert in een efficiënt iteratief algoritme met theoretische convergentiegaranties en superieure prestaties op D4RL-benchmarks.

Hongqiang Lin, Zhenghui Fu, Weihao Tang, Pengfei Wang, Yiding Sun, Qixian Huang, Dongxu Zhang2026-03-11🤖 cs.AI

Democratising Clinical AI through Dataset Condensation for Classical Clinical Models

Dit artikel introduceert een differentieel-private, nulde-orde optimalisatieframework dat datasetcondensatie mogelijk maakt voor niet-differentieerbare klinische modellen, zoals beslisbomen en Cox-regressie, waardoor veilige en modelonafhankelijke datauitwisseling voor klinische voorspellingsopdrachten wordt gerealiseerd zonder de privacy van patiënten te schaden.

Anshul Thakur, Soheila Molaei, Pafue Christy Nganjimi, Joshua Fieggen, Andrew A. S. Soltan, Danielle Belgrave, Lei Clifton, David A. Clifton2026-03-11🤖 cs.AI

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

SPAARS is een curriculumleerframework voor offline-naar-online versterkingsleer dat veilig online verkenning eerst beperkt tot een laagdimensionale latente ruimte om vervolgens naadloos over te schakelen naar de ruwe actieruimte, waardoor de prestatieplafond van decoder-bottlenecks wordt doorbroken en aanzienlijk betere sample-efficiëntie en prestaties worden bereikt.

Swaminathan S K, Aritra Hazra2026-03-11🤖 cs.AI

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Dit rapport presenteert de ICDAR 2025 competitie voor end-to-end machinevertaling van documentafbeeldingen met complexe lay-outs, waarbij 69 teams deelnamen aan twee tracks (OCR-vrij en OCR-gebaseerd) en de resultaten aantonen dat grote modellen een veelbelovend paradigma vormen voor dit domein.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation

Dit artikel introduceert een framework dat een Conditional Flow Matching-expert distilleert naar een snelle, single-step student via Implicit Maximum Likelihood Estimation, waardoor real-time, multi-modale robotcontrole met behoud van multi-modaal gedrag mogelijk wordt zonder de latentie van iteratieve integratie.

Ju Dong, Liding Zhang, Lei Zhang, Yu Fu, Kaixin Bai, Zoltan-Csaba Marton, Zhenshan Bing, Zhaopeng Chen, Alois Christian Knoll, Jianwei Zhang2026-03-11🤖 cs.AI

Open-World Motion Forecasting

Dit paper introduceert 'open-world motion forecasting', een nieuw kader dat autonome voertuigen in staat stelt om continu nieuwe objectklassen te leren en hun bewegingen te voorspellen vanuit camera-beelden zonder vergeten van eerder geleerde kennis, door middel van een end-to-end class-incremental framework met pseudo-labeling en een innovatieve replay-samplingstrategie.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav Valada2026-03-11🤖 cs.AI

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

Dit paper introduceert OncoAgent, een nieuw AI-agentkader dat klinische richtlijnen direct omzet in 3D-stralingsvolumes zonder training, waardoor het in een zero-shot setting presteert die vergelijkbaar is met toezichtmodellen en door artsen wordt geprefereerd vanwege zijn superioriteit in richtlijncompliance en aanpasbaarheid.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung Kim2026-03-11🤖 cs.AI