Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

Dit artikel introduceert een complexiteitsbewust adaptief inferentiekader voor Vision-Language-Action-modellen dat dynamisch kiest tussen direct handelen, redeneren of het afbreken van taken op basis van de waargenomen situatie, waarbij visuele embeddings worden aangetoond als een efficiënt en betrouwbaar middel voor het detecteren van taakcomplexiteit.

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-06💻 cs

Mario: Multimodal Graph Reasoning with Large Language Models

Mario is een unificerend framework dat grote taalmodellen in staat stelt om effectief te redeneren over multimodale grafen door middel van een graf-geconditioneerde VLM voor kruismodale consistentie en een modaal-adaptieve instructie-tuning-mechanisme dat de meest informatieve modale configuraties selecteert, wat leidt tot superieure prestaties in vergelijking met bestaande modellen.

Yuanfu Sun, Kang Li, Pengkang Guo + 2 more2026-03-06💻 cs

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

Het artikel introduceert SPyCer, een semi-supervised, fysica-gedreven netwerk dat satellietbeelden en oppervlakte-energiebalansmodellen combineert om nauwkeurige en ruimtelijk continue schattingen van de luchttemperatuur nabij het aardoppervlak te genereren, ondanks de beperkte beschikbaarheid van grondmetingen.

Sofiane Bouaziz, Adel Hafiane, Raphael Canals + 1 more2026-03-06🤖 cs.AI

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

Dit paper introduceert Wiki-R1, een curriculum reinforcement learning-framework dat door middel van gecontroleerde data-generatie en een slimme steekproefstrategie multimodale redeneervermogens van modellen verbetert voor kennisgebaseerde visuele vraagbeantwoording, wat leidt tot nieuwe state-of-the-art resultaten op benchmarks zoals Encyclopedic VQA en InfoSeek.

Shan Ning, Longtian Qiu, Xuming He2026-03-06💻 cs