BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

Dit paper introduceert een benchmark om de systematische bias in de tool-selectie van LLM-agents te kwantificeren, identificeert metadata en pre-training als belangrijkste oorzaken, en stelt een lichtgewicht mitigatiestrategie voor om deze onrechtvaardige voorkeuren te verminderen.

Thierry Blankenstein, Jialin Yu, Zixuan Li, Vassilis Plachouras, Sunando Sengupta, Philip Torr, Yarin Gal, Alasdair Paren, Adel Bibi2026-03-12🤖 cs.AI

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

Dit artikel presenteert de eerste systematische evaluatie van zelftoezichthoudend leren (SSL) voor slaapstadiëring met draagbare EEG, waarbij wordt aangetoond dat deze aanpak de prestaties aanzienlijk verbetert en klinisch bruikbare nauwkeurigheid bereikt met slechts 5% tot 10% van de benodigde gelabelde data.

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis Montesano2026-03-12🤖 cs.AI

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

Deze paper introduceert een hiërarchisch dubbelstrategisch kader voor selectief vergeten in medische grote taalmodellen dat, door het combineren van geometrisch beperkte gradiëntupdates en conceptbewuste tokeninterventies, specifieke privacygevoelige kennis effectief verwijdert terwijl fundamentele medische competenties behouden blijven en slechts 0,1% van de parameters wordt aangepast.

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing Chen2026-03-12🤖 cs.LG

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

Het paper introduceert CostNav, een nieuw benchmark voor fysieke AI-agenten dat navigatieprestaties evalueert op basis van realistische economische kosten en inkomsten door gebruik te maken van industriestandaarddata, en onthult dat bestaande methoden voor autonome bezorging nog niet economisch levensvatbaar zijn.

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

Dit paper introduceert IndiMathBench, een door mensen geverifieerd benchmark voor het evalueren van wiskundig redeneren in Lean 4, dat is samengesteld uit 312 problemen van Indiase wiskunde-olympiades via een AI-gestuurde, menselijk ondersteunde pipeline en aantoont dat geautomatiseerde formalisatie ondanks iteratieve verfijning nog steeds aanzienlijke uitdagingen kent.

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari2026-03-12🤖 cs.AI

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

Dit paper introduceert Trio, een innovatief framework dat fragmentgebaseerde taalmodellen, versterkingsleer en Monte Carlo-baanzoek combineert om een gesloten lus voor doelgerichte moleculaire ontdekking te creëren die de binding, geneeskrachtigheid en synthetische haalbaarheid van nieuwe liganden significant verbetert.

Junkai Ji, Zhangfan Yang, Dong Xu, Ruibin Bai, Jianqiang Li, Tingjun Hou, Zexuan Zhu2026-03-12🤖 cs.AI