Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection

Dit paper introduceert een genormaliseerde betrouwbaarheidsscore die fouten en hallucinaties in grote taalmodellen detecteert, en onthult dat supervisie fine-tuning (SFT) betere kalibratie biedt dan versterkingsleermethoden, terwijl het een post-RL SFT-strategie voorstelt om deze betrouwbaarheid te herstellen en efficiëntere retrieval-augmented generation (RAG) mogelijk te maken.

Xie Xiaohu, Liu Xiaohu, Yao Benjamin2026-03-10🤖 cs.LG

Structure-Aware Set Transformers: Temporal and Variable-Type Attention Biases for Asynchronous Clinical Time Series

Dit artikel introduceert STAR-Set, een structure-bewuste Set Transformer die asynchrone klinische tijdsreeksen effectiever verwerkt door zachte attention-biasen toe te voegen voor tijdslokaliteit en variabele-affiniteit, wat leidt tot superieure prestaties op diverse IC-predictietaken vergeleken met bestaande methoden.

Joohyung Lee, Kwanhyung Lee, Changhun Kim, Eunho Yang2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

Deze paper introduceert een gestructureerd benchmarkkader met geïsoleerde interferentiegames en uitgebreide datasets om de specifieke uitdagingen van multi-agent deep reinforcement learning voor C-V2X-resourceallocatie te ontrafelen, waarbij blijkt dat robustheid en generalisatie over diverse voertuigtopologieën de grootste obstakels vormen.

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Deze paper introduceert de Two-Bridge Map Suite, een open-source benchmark voor StarCraft II die als tussenliggend niveau fungeert tussen de volledige game en mini-games, waardoor onderzoekers tactische vaardigheden kunnen bestuderen zonder de hoge rekenkosten van de volledige game.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Dit paper concludeert dat het vermeerderen van inferentieberekeningen via crowd-wisdom-strategieën de waarheidsgetrouwheid van taalmodellen in niet-verifieerbare domeinen niet verbetert, omdat de fouten van modellen sterk gecorreleerd zijn en aggregatie vaak gedeelde misvattingen versterkt in plaats van de waarheid te onthullen.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

Dit paper introduceert het Annealed Co-Generation (ACG)-framework, dat multivariate co-generatie in wetenschappelijke toepassingen efficiënter maakt door complexe gezamenlijke modellering te vervangen door een samenstellende reeks van laag-dimensionale, paarsgewijze diffusiemodellen die via een drie-fase-annealingsproces worden gekoppeld.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

Deze paper introduceert een nieuw topology-bewust kader dat kennisdistillatie en contextbewuste representatielering combineert om zero-shot interactievoorspelling in multiplex biologische netwerken te verbeteren, waardoor de beperkingen van bestaande methoden worden overwonnen en de ontdekking van nieuwe biologische interacties voor gepersonaliseerde therapieën wordt bevorderd.

Alana Deng, Sugitha Janarthanan, Yan Sun, Zihao Jing, Pingzhao Hu2026-03-10🤖 cs.LG