Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

Dit artikel presenteert een methode voor beeldgebaseerde vormretrieval die gebruikmaakt van vooraf uitgelijnde multi-modale encoders en een hard contrastief verlies om state-of-the-art prestaties te bereiken zonder dat view-synthese of hertraining op de doel-database nodig is.

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha2026-03-10💻 cs

Perception-Aware Multimodal Spatial Reasoning from Monocular Images

Dit paper introduceert een perceptiebewust multimodaal redeneringsframework dat Vision-Language Models versterkt met object-gerichte grounding via visuele referentietokens en een Multimodal Chain-of-Thought-dataset, waardoor aanzienlijke verbeteringen worden behaald in ruimtelijk redeneren uit monoculaire beelden voor autonoom rijden.

Yanchun Cheng, Rundong Wang, Xulei Yang, Alok Prakash, Daniela Rus, Marcelo H Ang Jr, ShiJie Li2026-03-10💻 cs

ADAS-TO: A Large-Scale Multimodal Naturalistic Dataset and Empirical Characterization of Human Takeovers during ADAS Engagement

Dit paper introduceert ADAS-TO, het eerste grote, openbare multimodale dataset dat zich richt op natuurlijke overnames van ADAS naar handmatige besturing, en biedt empirische inzichten in de dynamiek van kritieke situaties die aantonen dat visuele waarschuwingen vaak eerder mogelijk zijn dan kinematische triggers.

Yuhang Wang, Yiyao Xu, Jingran Sun, Hao Zhou2026-03-10💻 cs

Foundational World Models Accurately Detect Bimanual Manipulator Failures

Deze paper introduceert een efficiënte runtime-monitor die een probabilistisch wereldmodel in de latente ruimte van een visuele fundamentele model gebruikt om onzekerheidsschattingen te genereren voor het nauwkeurig detecteren van anomalieën en storingen bij bimanuele robots, wat aanzienlijk beter presteert dan bestaande methoden met veel minder trainbare parameters.

Isaac R. Ward, Michelle Ho, Houjun Liu, Aaron Feldman, Joseph Vincent, Liam Kruse, Sean Cheong, Duncan Eddy, Mykel J. Kochenderfer, Mac Schwager2026-03-10💻 cs

TrajPred: Trajectory-Conditioned Joint Embedding Prediction for Surgical Instrument-Tissue Interaction Recognition in Vision-Language Models

Dit paper introduceert TrajPred, een framework dat instrumenttrajectoires en visueel-taalmodellen combineert om de nauwkeurigheid van de herkenning van interacties tussen chirurgische instrumenten en weefsels te verbeteren door tijdsafhankelijke bewegingsinformatie en fijne actie-details beter te benutten.

Jiajun Cheng, Xiaofan Yu, Subarna, Sainan Liu, Shan Lin2026-03-10💻 cs

An Extended Consent-Based Access Control Framework: Pre-Commit Validation and Emergency Access

Dit paper introduceert een uitgebreid op toestemming gebaseerd toegangscontrolekader voor de gezondheidszorg dat semantische correctie garandeert door conflicten proactief bij het aanmaken van toestemming te detecteren, onveranderlijke basisrechten formaliseert en contextbewuste noodtoegang mogelijk maakt, wat resulteert in lagere latentie en betere schaalbaarheid dan traditionele XACML-baselines.

Nasif Muslim, Jean-Charles Grégoire2026-03-10💻 cs

Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

Dit paper introduceert Mozart, een co-ontwerp van algoritme en hardware dat de training van MoE-gedreven taalmodellen op 3.5D wafer-scale chiplet-architecturen optimaliseert door middel van een slimme experttoewijzing, fijnmazige planning en een hiërarchisch geheugenontwerp om communicatie- en geheugenproblemen op te lossen.

Shuqing Luo (Katie), Ye Han (Katie), Pingzhi Li (Katie), Jiayin Qin (Katie), Jie Peng (Katie), Yang (Katie), Zhao (Kevin), Yu (Kevin), Cao, Tianlong Chen2026-03-10💻 cs

OV-DEIM: Real-time DETR-Style Open-Vocabulary Object Detection with GridSynthetic Augmentation

Dit paper introduceert OV-DEIM, een real-time open-vocabulary objectdetector op basis van het DEIMv2-architectuur die, door middel van een query-aanvullingsstrategie en de nieuwe GridSynthetic-dataaugmentatietechniek, state-of-the-art prestaties bereikt met verbeterde efficiëntie en detectie van zeldzame categorieën.

Leilei Wang, Longfei Liu, Xi Shen, Xuanlong Yu, Ying Tiffany He, Fei Richard Yu, Yingyi Chen2026-03-10💻 cs

SSP: Safety-guaranteed Surgical Policy via Joint Optimization of Behavioral and Spatial Constraints

Dit paper introduceert SSP, een raamwerk dat neurale differentiaalvergelijkingen en veiligheidscontrolefuncties combineert om data-gedreven chirurgische beleidslijnen van formele veiligheidswaarborgen te voorzien, waardoor de overtreding van gedrags- en ruimtelijke beperkingen in robotchirurgie tot bijna nul wordt teruggebracht zonder de taaksucces te compromitteren.

Jianshu Hu, ZhiYuan Guan, Lei Song, Kantaphat Leelakunwet, Hesheng Wang, Wei Xiao, Qi Dou, Yutong Ban2026-03-10💻 cs