Global Minimizers of Sigmoid Contrastive Loss

Dit artikel biedt een theoretische verklaring voor de voordelen van het synchroniseren van trainbare inverse temperatuur en bias onder de sigmoid-verliesfunctie, zoals gebruikt in SigLIP-modellen, door een nieuw combinatorisch object genaamd (m,brel)(\mathsf{m}, \mathsf{b}_{\mathsf{rel}})-Constellations te introduceren dat de succesvolle prestaties, de modale kloof en de benodigde dimensie voor kwalitatief hoogwaardige representaties verklaart.

Kiril Bangachev, Guy Bresler, Iliyas Noman, Yury Polyanskiy2026-03-12🤖 cs.LG

RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs

Het paper introduceert RADAR, een lichtgewicht en interpreteerbaar routeringskader dat, geïnspireerd door psychometrie, query's dynamisch toewijst aan de meest geschikte reasoning-LLM-configuratie op basis van de moeilijkheidsgraad van de vraag en het beschikbare reasoning-budget om zo de prestaties te maximaliseren en de kosten te optimaliseren.

Nigel Fernandez, Branislav Kveton, Ryan A. Rossi, Andrew S. Lan, Zichao Wang2026-03-12🤖 cs.AI

BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

Dit paper introduceert een benchmark om de systematische bias in de tool-selectie van LLM-agents te kwantificeren, identificeert metadata en pre-training als belangrijkste oorzaken, en stelt een lichtgewicht mitigatiestrategie voor om deze onrechtvaardige voorkeuren te verminderen.

Thierry Blankenstein, Jialin Yu, Zixuan Li, Vassilis Plachouras, Sunando Sengupta, Philip Torr, Yarin Gal, Alasdair Paren, Adel Bibi2026-03-12🤖 cs.AI

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

Dit artikel presenteert de eerste systematische evaluatie van zelftoezichthoudend leren (SSL) voor slaapstadiëring met draagbare EEG, waarbij wordt aangetoond dat deze aanpak de prestaties aanzienlijk verbetert en klinisch bruikbare nauwkeurigheid bereikt met slechts 5% tot 10% van de benodigde gelabelde data.

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis Montesano2026-03-12🤖 cs.AI

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

Deze paper introduceert een hiërarchisch dubbelstrategisch kader voor selectief vergeten in medische grote taalmodellen dat, door het combineren van geometrisch beperkte gradiëntupdates en conceptbewuste tokeninterventies, specifieke privacygevoelige kennis effectief verwijdert terwijl fundamentele medische competenties behouden blijven en slechts 0,1% van de parameters wordt aangepast.

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing Chen2026-03-12🤖 cs.LG

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

Het paper introduceert CostNav, een nieuw benchmark voor fysieke AI-agenten dat navigatieprestaties evalueert op basis van realistische economische kosten en inkomsten door gebruik te maken van industriestandaarddata, en onthult dat bestaande methoden voor autonome bezorging nog niet economisch levensvatbaar zijn.

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

Dit paper introduceert IndiMathBench, een door mensen geverifieerd benchmark voor het evalueren van wiskundig redeneren in Lean 4, dat is samengesteld uit 312 problemen van Indiase wiskunde-olympiades via een AI-gestuurde, menselijk ondersteunde pipeline en aantoont dat geautomatiseerde formalisatie ondanks iteratieve verfijning nog steeds aanzienlijke uitdagingen kent.

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari2026-03-12🤖 cs.AI