Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

Dit artikel introduceert Hospitality-VQA, een nieuwe dataset en evaluatieframework voor informativiteit, om te onderzoeken hoe Vision-Language Models beslissingsgerelateerde vragen over hotelvoorzieningen kunnen beantwoorden en hoe domeinspecifieke finetuning de bruikbaarheid van deze modellen verbetert.

Jeongwoo Lee, Baek Duhyeong, Eungyeol Han, Soyeon Shin, Gukin han, Seungduk Kim, Jaehyun Jeon, Taewoo Jeong2026-03-10🤖 cs.LG

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

Dit paper introduceert CCR-Bench, een nieuw benchmark voor het evalueren van grote taalmodellen op complexe instructies die voortkomen uit real-world industriële scenario's, waarbij wordt aangetoond dat zelfs de meest geavanceerde modellen aanzienlijke tekortkomingen vertonen in het volgen van ingewikkelde content- en formatvereisten, logische workflows en conditioneel redeneren.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Dit paper introduceert een theoretisch kader gebaseerd op deeltjesschermen (particle filtering) om de nauwkeurigheids-kostentrade-offs van inferentiemethoden voor grote taalmodellen die meerdere samples aggregeren en pruning toepassen, rigoureus te analyseren en fundamentele grenzen te identificeren.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

Dit artikel beschrijft een nieuw besluitvormingskader en een hybride AI-statistisch voorspellingsmodel voor de Indiase moesson, dat in 2025 operationeel werd ingezet om 38 miljoen boeren nauwkeurige, op maat gemaakte seizoensvoorspellingen te bieden voor betere landbouwbeslissingen.

Colin Aitken, Rajat Masiwal, Adam Marchakitus, Katherine Kowal, Mayank Gupta, Tyler Yang, Amir Jina, Pedram Hassanzadeh, William R. Boos, Michael Kremer2026-03-10🤖 cs.LG

EveryQuery: Zero-Shot Clinical Prediction via Task-Conditioned Pretraining over Electronic Health Records

Het artikel introduceert EveryQuery, een EHR-fundatiemodel dat via task-geconditioneerd pre-training zero-shot klinische voorspellingen mogelijk maakt door direct de waarschijnlijkheid van een uitkomst te schatten op basis van een patiëntgeschiedenis en een gestructureerde query, wat leidt tot aanzienlijke prestatieverbeteringen ten opzichte van autoregressieve baselines, met name voor zeldzame klinische gebeurtenissen.

Payal Chandak, Gregory Kondas, Isaac Kohane, Matthew McDermott2026-03-10💻 cs

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

Dit artikel introduceert IMSE, een methode voor testtijdadaptatie die gebruikmaakt van intrinsieke spectrale experts in Vision Transformers door alleen singuliere waarden aan te passen en een diversiteitsmaximalisatieverlies toepast om feature-collapse te voorkomen, waardoor state-of-the-art prestaties worden bereikt met aanzienlijk minder trainbare parameters.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

Het paper introduceert SWE-Fuse, een trainingsframework dat software-agenten verbetert door issue-vrije trajecten en entropie-bewuste RLVR-training te combineren om de beperkingen van onnauwkeurige probleembeschrijvingen te overwinnen en aanzienlijk betere oplossingspercentages op de SWE-bench Verified-benchmark te bereiken.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun Gao2026-03-10💻 cs

Advancing Automated Algorithm Design via Evolutionary Stagewise Design with LLMs

Dit paper introduceert EvoStage, een evolutionair raamwerk dat Large Language Models (LLMs) gebruikt om door middel van gefaseerde ontwerpstappen en real-time feedback geautomatiseerde algoritmen te creëren die menselijke expertontwerpen en bestaande methoden overtreffen in complexe industriële toepassingen zoals chipplaatsing.

Chen Lu, Ke Xue, Chengrui Gao, Yunqi Shi, Siyuan Xu, Mingxuan Yuan, Chao Qian, Zhi-Hua Zhou2026-03-10💻 cs

Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs with Continual Learning

Dit artikel introduceert HILA, een framework voor mens-agent samenwerking dat via een tweeledige policy-optimatie met meta-cognitieve agenten leert wanneer ze zelfstandig moeten handelen en wanneer ze menselijke expertise moeten inschakelen, waardoor systemen continu kunnen leren en robuuster worden in complexe taken.

Wei Yang, Defu Cao, Jiacheng Pang, Muyan Weng, Yan Liu2026-03-10💻 cs

VORL-EXPLORE: A Hybrid Learning Planning Approach to Multi-Robot Exploration in Dynamic Environments

Het artikel introduceert VORL-EXPLORE, een hybride leer- en planningsframework dat de robuustheid van multi-robot verkenning in dynamische omgevingen verbetert door taaktoewijzing te koppelen aan uitvoeringsbetrouwbaarheid via een gemeenschappelijke navigatie-inschatting, wat leidt tot minder botsingen, kortere paden en minder overlap.

Ning Liu, Sen Shen, Zheng Li, Sheng Liu, Dongkun Han, Shangke Lyu, Thomas Braunl2026-03-10💻 cs