cs.AI papers | Gist.Science

Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

Dit artikel introduceert Hospitality-VQA, een nieuwe dataset en evaluatieframework voor informativiteit, om te onderzoeken hoe Vision-Language Models beslissingsgerelateerde vragen over hotelvoorzieningen kunnen beantwoorden en hoe domeinspecifieke finetuning de bruikbaarheid van deze modellen verbetert.

Jeongwoo Lee, Baek Duhyeong, Eungyeol Han, Soyeon Shin, Gukin han, Seungduk Kim, Jaehyun Jeon, Taewoo Jeong2026-03-10🤖 cs.LG

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

Dit paper introduceert CCR-Bench, een nieuw benchmark voor het evalueren van grote taalmodellen op complexe instructies die voortkomen uit real-world industriële scenario's, waarbij wordt aangetoond dat zelfs de meest geavanceerde modellen aanzienlijke tekortkomingen vertonen in het volgen van ingewikkelde content- en formatvereisten, logische workflows en conditioneel redeneren.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Dit paper introduceert een theoretisch kader gebaseerd op deeltjesschermen (particle filtering) om de nauwkeurigheids-kostentrade-offs van inferentiemethoden voor grote taalmodellen die meerdere samples aggregeren en pruning toepassen, rigoureus te analyseren en fundamentele grenzen te identificeren.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Dit paper introduceert VLM-SubtleBench, een nieuw meetinstrument dat VLM's evalueert op hun vermogen om subtiele verschillen in diverse domeinen zoals industrie en medische beeldvorming te onderscheiden, en blootlegt dat er nog een aanzienlijke kloof bestaat tussen model- en menselijke prestaties.

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

Dit artikel presenteert beeldsegmentatie als een visueel testkader voor coalitieformatie in hedonische spellen, waarbij wordt onderzocht hoe een granulariteitsparameter de evenwichtsfragmentatie beïnvloedt en de link legt tussen mechanismeontwerp en de structuur van evenwichten.

Pedro Henrique de Paula França, Lucas Lopes Felipe, Daniel Sadoc Menasché2026-03-10💻 cs

A Lightweight Traffic Map for Efficient Anytime LaCAM*

Dit paper introduceert een nieuwe methode die het vermogen van LaCAM* benut om een dynamische, lichtgewicht verkeerskaart te construeren tijdens de zoektocht, waardoor de rekenkosten worden verlaagd en de oplossingskwaliteit voor Multi-Agent Path Finding wordt verbeterd ten opzichte van bestaande statische aanpakken.

Bojie Shen, Yue Zhang, Zhe Chen, Daniel Harabor2026-03-10💻 cs

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

Dit artikel beschrijft een nieuw besluitvormingskader en een hybride AI-statistisch voorspellingsmodel voor de Indiase moesson, dat in 2025 operationeel werd ingezet om 38 miljoen boeren nauwkeurige, op maat gemaakte seizoensvoorspellingen te bieden voor betere landbouwbeslissingen.

Colin Aitken, Rajat Masiwal, Adam Marchakitus, Katherine Kowal, Mayank Gupta, Tyler Yang, Amir Jina, Pedram Hassanzadeh, William R. Boos, Michael Kremer2026-03-10🤖 cs.LG

SMGI: A Structural Theory of General Artificial Intelligence

Dit paper introduceert SMGI, een structurele theorie voor algemeen kunstmatige intelligentie die leren herkijkt als de gecontroleerde evolutie van het leerinterface en bewijst dat bestaande methoden zoals versterkend leren en empirisch risicominimalisatie beperkte instanties zijn van dit uitgebreide raamwerk.

Aomar Osmani2026-03-10🤖 cs.LG

EveryQuery: Zero-Shot Clinical Prediction via Task-Conditioned Pretraining over Electronic Health Records

Het artikel introduceert EveryQuery, een EHR-fundatiemodel dat via task-geconditioneerd pre-training zero-shot klinische voorspellingen mogelijk maakt door direct de waarschijnlijkheid van een uitkomst te schatten op basis van een patiëntgeschiedenis en een gestructureerde query, wat leidt tot aanzienlijke prestatieverbeteringen ten opzichte van autoregressieve baselines, met name voor zeldzame klinische gebeurtenissen.

Payal Chandak, Gregory Kondas, Isaac Kohane, Matthew McDermott2026-03-10💻 cs

Long-Short Term Agents for Pure-Vision Bronchoscopy Robotic Autonomy

Deze studie presenteert een volledig visuele autonomieframework voor robotische bronchoscopie dat, zonder externe tracking, lange- en korte-termijn agenten combineert met een wereldmodel om succesvol te navigeren naar doelgebieden in de luchtwegen.

Junyang Wu, Mingyi Luo, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Chunxi Zhang, Junhao Wang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

Dit artikel introduceert Ares, een framework dat dynamisch het benodigde redeneerniveau per stap van een agent voorspelt om de inferentiekosten aanzienlijk te verlagen zonder de taakprestaties significant te beïnvloeden.

Jingbo Yang, Bairu Hou, Wei Wei, Yujia Bao, Shiyu Chang2026-03-10💻 cs

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

Dit paper introduceert Rel-MOSS, een relationeel deep learning-model dat het probleem van class imbalance in relationele databases aanpakt door een relation-gestuurde over-sampling-methode te gebruiken die de prestaties significant verbetert ten opzichte van bestaande methoden.

Jun Yin, Peng Huo, Bangguo Zhu, Hao Yan, Senzhang Wang, Shirui Pan, Chengqi Zhang2026-03-10🤖 cs.LG

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

Dit artikel introduceert IMSE, een methode voor testtijdadaptatie die gebruikmaakt van intrinsieke spectrale experts in Vision Transformers door alleen singuliere waarden aan te passen en een diversiteitsmaximalisatieverlies toepast om feature-collapse te voorkomen, waardoor state-of-the-art prestaties worden bereikt met aanzienlijk minder trainbare parameters.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

Het paper introduceert SWE-Fuse, een trainingsframework dat software-agenten verbetert door issue-vrije trajecten en entropie-bewuste RLVR-training te combineren om de beperkingen van onnauwkeurige probleembeschrijvingen te overwinnen en aanzienlijk betere oplossingspercentages op de SWE-bench Verified-benchmark te bereiken.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun Gao2026-03-10💻 cs

AI Agents, Language, Deep Learning and the Next Revolution in Science

Dit paper stelt voor dat intelligente, door mensen gecontroleerde AI-agenten, gebaseerd op deep learning en grote taalmodellen, de volgende evolutie van de wetenschappelijke methode vormen om de groeiende kloof tussen datageneratie en -begrip te overbruggen, zoals geïllustreerd door het Dr. Sai-systeem in de deeltjesfysica.

Ke Li, Beijiang Liu, Bruce Mellado, Changzheng Yuan, Zhengde Zhang2026-03-10💻 cs

ELLMob: Event-Driven Human Mobility Generation with Self-Aligned LLM Framework

Dit paper introduceert ELLMob, een zelf-gealigneerd LLM-framework dat menselijke mobiliteit genereert die zowel gewoontes als gebeurtenisgerelateerde beperkingen respecteert, en presenteert het eerste dataset met gebeurtenisannotaties voor drie grote wereldwijde gebeurtenissen.

Yusong Wang, Chuang Yang, Jiawei Wang, Xiaohang Xu, Jiayi Xu, Dongyuan Li, Chuan Xiao, Renhe Jiang2026-03-10🤖 cs.LG

PSTNet: Physically-Structured Turbulence Network

Dit artikel introduceert PSTNet, een lichtgewicht neurale netwerkarchitectuur die fysische principes direct in zijn structuur verwerkt om atmosferische turbulentie in real-time en met hoge nauwkeurigheid te schatten op beperkte hardware, waardoor het een effectief alternatief biedt voor bestaande methoden in veiligheidskritieke vliegtuigsturingssystemen.

Boris Kriuk, Fedor Kriuk2026-03-10🤖 cs.LG

Advancing Automated Algorithm Design via Evolutionary Stagewise Design with LLMs

Dit paper introduceert EvoStage, een evolutionair raamwerk dat Large Language Models (LLMs) gebruikt om door middel van gefaseerde ontwerpstappen en real-time feedback geautomatiseerde algoritmen te creëren die menselijke expertontwerpen en bestaande methoden overtreffen in complexe industriële toepassingen zoals chipplaatsing.

Chen Lu, Ke Xue, Chengrui Gao, Yunqi Shi, Siyuan Xu, Mingxuan Yuan, Chao Qian, Zhi-Hua Zhou2026-03-10💻 cs

Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs with Continual Learning

Dit artikel introduceert HILA, een framework voor mens-agent samenwerking dat via een tweeledige policy-optimatie met meta-cognitieve agenten leert wanneer ze zelfstandig moeten handelen en wanneer ze menselijke expertise moeten inschakelen, waardoor systemen continu kunnen leren en robuuster worden in complexe taken.

Wei Yang, Defu Cao, Jiacheng Pang, Muyan Weng, Yan Liu2026-03-10💻 cs

VORL-EXPLORE: A Hybrid Learning Planning Approach to Multi-Robot Exploration in Dynamic Environments

Het artikel introduceert VORL-EXPLORE, een hybride leer- en planningsframework dat de robuustheid van multi-robot verkenning in dynamische omgevingen verbetert door taaktoewijzing te koppelen aan uitvoeringsbetrouwbaarheid via een gemeenschappelijke navigatie-inschatting, wat leidt tot minder botsingen, kortere paden en minder overlap.

Ning Liu, Sen Shen, Zheng Li, Sheng Liu, Dongkun Han, Shangke Lyu, Thomas Braunl2026-03-10💻 cs

← Vorige Volgende →