Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

Dit artikel introduceert Hospitality-VQA, een nieuwe dataset en evaluatieframework voor informativiteit, om te onderzoeken hoe Vision-Language Models beslissingsgerelateerde vragen over hotelvoorzieningen kunnen beantwoorden en hoe domeinspecifieke finetuning de bruikbaarheid van deze modellen verbetert.

Jeongwoo Lee, Baek Duhyeong, Eungyeol Han, Soyeon Shin, Gukin han, Seungduk Kim, Jaehyun Jeon, Taewoo Jeong2026-03-10🤖 cs.LG

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Dit paper introduceert een theoretisch kader gebaseerd op deeltjesschermen (particle filtering) om de nauwkeurigheids-kostentrade-offs van inferentiemethoden voor grote taalmodellen die meerdere samples aggregeren en pruning toepassen, rigoureus te analyseren en fundamentele grenzen te identificeren.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

Dit artikel beschrijft een nieuw besluitvormingskader en een hybride AI-statistisch voorspellingsmodel voor de Indiase moesson, dat in 2025 operationeel werd ingezet om 38 miljoen boeren nauwkeurige, op maat gemaakte seizoensvoorspellingen te bieden voor betere landbouwbeslissingen.

Colin Aitken, Rajat Masiwal, Adam Marchakitus, Katherine Kowal, Mayank Gupta, Tyler Yang, Amir Jina, Pedram Hassanzadeh, William R. Boos, Michael Kremer2026-03-10🤖 cs.LG

LeJOT-AutoML: LLM-Driven Feature Engineering for Job Execution Time Prediction in Databricks Cost Optimization

Het paper introduceert LeJOT-AutoML, een door LLM-agenten aangedreven AutoML-framework dat automatisch complexe runtime-kenmerken genereert voor het voorspellen van uitvoeringstijden in Databricks, waardoor de feature-engineeringcyclus van weken naar minuten wordt teruggebracht en de kosten met 19,01% worden verlaagd.

Lizhi Ma, Yi-Xiang Hu, Yihui Ren, Feng Wu, Xiang-Yang Li2026-03-10🤖 cs.LG

DyQ-VLA: Temporal-Dynamic-Aware Quantization for Embodied Vision-Language-Action Models

DyQ-VLA is een dynamisch kwantisatiekader voor Vision-Language-Action-modellen dat tijdsafhankelijke gevoeligheid benut om de geheugenvoetafdruk met 69,1% te verminderen en de snelheid te verhogen, terwijl 99,5% van de oorspronkelijke prestaties behouden blijft.

Zihao Zheng, Hangyu Cao, Sicheng Tian, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen2026-03-10🤖 cs.LG

$OneMillion-Bench: How Far are Language Agents from Human Experts?

In dit paper wordt $OneMillion-Bench geïntroduceerd, een nieuwe benchmark met 400 door experts samengestelde taken uit vijf professionele domeinen die taalagenten evalueren op hun vermogen om complexe, realistische scenario's met betrouwbare redenering en bronverificatie aan te pakken, in plaats van alleen gestructureerde examenvragen.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG