cs.CV papers | Gist.Science

T2SGrid: Temporal-to-Spatial Gridification for Video Temporal Grounding

Dit paper introduceert T2SGrid, een nieuw raamwerk dat video-temporele grondvesting verbetert door tijdssequenties om te vormen naar gestructureerde 2D-gridbeelden, waardoor complexe temporele dynamiek effectiever kan worden begrepen dan met bestaande methoden.

Chaohong Guo, Yihan He, Yongwei Nie, Fei Ma, Xuemiao Xu, Chengjiang Long2026-03-10💻 cs

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

Dit artikel presenteert een methode voor beeldgebaseerde vormretrieval die gebruikmaakt van vooraf uitgelijnde multi-modale encoders en een hard contrastief verlies om state-of-the-art prestaties te bereiken zonder dat view-synthese of hertraining op de doel-database nodig is.

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha2026-03-10💻 cs

Perception-Aware Multimodal Spatial Reasoning from Monocular Images

Dit paper introduceert een perceptiebewust multimodaal redeneringsframework dat Vision-Language Models versterkt met object-gerichte grounding via visuele referentietokens en een Multimodal Chain-of-Thought-dataset, waardoor aanzienlijke verbeteringen worden behaald in ruimtelijk redeneren uit monoculaire beelden voor autonoom rijden.

Yanchun Cheng, Rundong Wang, Xulei Yang, Alok Prakash, Daniela Rus, Marcelo H Ang Jr, ShiJie Li2026-03-10💻 cs

ADAS-TO: A Large-Scale Multimodal Naturalistic Dataset and Empirical Characterization of Human Takeovers during ADAS Engagement

Dit paper introduceert ADAS-TO, het eerste grote, openbare multimodale dataset dat zich richt op natuurlijke overnames van ADAS naar handmatige besturing, en biedt empirische inzichten in de dynamiek van kritieke situaties die aantonen dat visuele waarschuwingen vaak eerder mogelijk zijn dan kinematische triggers.

Yuhang Wang, Yiyao Xu, Jingran Sun, Hao Zhou2026-03-10💻 cs

MipSLAM: Alias-Free Gaussian Splatting SLAM

Dit paper introduceert MipSLAM, een frequentiebewust 3D-Gaussian-Splatting-SLAM-kader dat aliasing-artefacten en trajectdrift effectief aanpakt door een elliptisch adaptief anti-aliasing-algoritme en spectrale pose-grafoptimalisatie, wat resulteert in state-of-the-art weergavekwaliteit en lokaliseringsnauwkeurigheid.

Yingzhao Li, Yan Li, Shixiong Tian, Yanjie Liu, Lijun Zhao, Gim Hee Lee2026-03-10💻 cs

AdaGen: Learning Adaptive Policy for Image Synthesis

AdaGen introduceert een leerbaar, adaptief framework dat het iteratieve proces van beeldsynthese optimaliseert door een beleidsnetwerk te trainen via versterkingsleer met een adversariële beloning, waardoor de prestaties van diverse generatieve modellen aanzienlijk worden verbeterd en de inferentiekosten worden verlaagd.

Zanlin Ni, Yulin Wang, Yeguo Hua, Renping Zhou, Jiayi Guo, Jun Song, Bo Zheng, Gao Huang2026-03-10💻 cs

TrajPred: Trajectory-Conditioned Joint Embedding Prediction for Surgical Instrument-Tissue Interaction Recognition in Vision-Language Models

Dit paper introduceert TrajPred, een framework dat instrumenttrajectoires en visueel-taalmodellen combineert om de nauwkeurigheid van de herkenning van interacties tussen chirurgische instrumenten en weefsels te verbeteren door tijdsafhankelijke bewegingsinformatie en fijne actie-details beter te benutten.

Jiajun Cheng, Xiaofan Yu, Subarna, Sainan Liu, Shan Lin2026-03-10💻 cs

OV-DEIM: Real-time DETR-Style Open-Vocabulary Object Detection with GridSynthetic Augmentation

Dit paper introduceert OV-DEIM, een real-time open-vocabulary objectdetector op basis van het DEIMv2-architectuur die, door middel van een query-aanvullingsstrategie en de nieuwe GridSynthetic-dataaugmentatietechniek, state-of-the-art prestaties bereikt met verbeterde efficiëntie en detectie van zeldzame categorieën.

Leilei Wang, Longfei Liu, Xi Shen, Xuanlong Yu, Ying Tiffany He, Fei Richard Yu, Yingyi Chen2026-03-10💻 cs

Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Dit paper introduceert TFM, een aanvalsmethode die gebruikmaakt van een kwetsbaarheid in tekst-naar-video-modellen waarbij het specificeren van slechts begin- en eindframes leidt tot het genereren van schadelijke tussentijdse beelden, waardoor bestaande inhoudsfilters worden omzeild.

Moyang Chen, Zonghao Ying, Wenzhuo Xu, Quancheng Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang2026-03-10💻 cs

Fine-Grained 3D Facial Reconstruction for Micro-Expressions

In dit paper wordt een nieuwe methode voor fijnkorrelige 3D-herconstructie van micro-expressies voorgesteld die, door globale dynamische kenmerken te combineren met lokaal verrijkte informatie, de uitdagingen van deze subtiele en vluchtige gezichtsbewegingen overwint en superieure resultaten behaalt ten opzichte van bestaande methoden.

Che Sun, Xinjie Zhang, Rui Gao, Xu Chen, Yuwei Wu, Yunde Jia2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

Dit paper introduceert CAPL, een framework dat hallucinaties in multi-image taken van grote vision-language modellen aanpakt door cross-image attentie te kalibreren en voorkeurslering toe te passen om de interactie tussen afbeeldingen te verbeteren en de afhankelijkheid van tekstuele priors te verminderen.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer

Dit paper introduceert SODA, een methode die de inferentie-efficiëntie van Diffusion Transformers verbetert door adaptieve caching en pruning te combineren op basis van een fijnmazig gevoeligheidsmodel, waardoor een betere balans wordt bereikt tussen versnelling en generatiekwaliteit dan met bestaande statische methoden.

Tong Shao, Yusen Fu, Guoying Sun, Jingde Kong, Zhuotao Tian, Jingyong Su2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

MedSteer is een trainingsvrij framework dat actiesturing toepast op endoscopische diffusiemodellen om perfecte contrafactuele beeldparen te genereren waarbij alleen het pathologische concept verandert terwijl de anatomische structuur volledig behouden blijft, wat leidt tot superieure resultaten in data-augmentatie en polypdetectie.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding

Dit paper introduceert VirtueBench, een benchmark die de betrouwbaarheid van Vision-Language-modellen onder onzekerheid evalueert door te testen of ze eerlijk kunnen weigeren te antwoorden wanneer essentiële frames ontbreken, in plaats van onbetrouwbare gokkern te maken die de huidige evaluatiemethoden vertekenen.

Xueqing Yu, Bohan Li, Yan Li, Zhenheng Yang2026-03-10💻 cs

Physics-Guided VLM Priors for All-Cloud Removal

Deze paper introduceert PhyVLM-CR, een nieuwe methode die semantische priors van een Vision-Language Model combineert met fysische restauratie om een uniforme en nauwkeurige verwijdering van zowel dunne als dikke wolken op te leveren zonder expliciete cloudtype-classificatie.

Liying Xu, Huifang Li, Huanfeng Shen2026-03-10💻 cs

Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

Deze paper introduceert PSG-UIENet, een netwerk dat Retinex-fysica en taalkundige richtlijnen combineert om onderwaterbeelden te verbeteren, en introduceert hiervoor een nieuw multimodaal dataset en een semantische consistentieloss.

Shixuan Xu, Yabo Liu, Junyu Dong, Xinghui Dong2026-03-10💻 cs

Aligning What EEG Can See: Structural Representations for Brain-Vision Matching

Deze paper introduceert een nieuwe aanpak voor het decoderen van visuele informatie uit EEG-signalen door het concept van 'Neural Visibility' te gebruiken voor het selecteren van de juiste lagen in visuele modellen en een hiërarchisch fusieframework, wat leidt tot een aanzienlijke verbetering van de prestaties tot 84,6% op de THINGS-EEG-dataset.

Jingyi Tang, Shuai Jiang, Fei Su, Zhicheng Zhao2026-03-10💻 cs

mAVE: A Watermark for Joint Audio-Visual Generation Models

Dit paper introduceert mAVE, het eerste watermerksysteem dat audio en video cryptografisch aan elkaar koppelt in gezamenlijke generatieve modellen om de kwetsbaarheid voor 'swap-aanvallen' te elimineren en zo de reputatie van leveranciers te beschermen.

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

Deze paper introduceert een methode voor het genereren van gezichtsuitdrukkingen die zijn afgestemd op menselijke voorkeuren voor natuurlijke interactie, door menselijke feedback te integreren in een gesloten feedbacklus die een visueel-taal-actie model combineert met versterkende leerstrategieën.

Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

Het artikel NuNext introduceert een nieuwe methode voor nucleaire detectie in histopathologie die het probleem herschrijft als next-point detectie met een multimodaal groot taalmodel, gebruikmakend van twee trainingsfasen met ruimtelijke zachte supervisie en versterkingsleer om de prestaties op negen benchmarks aanzienlijk te verbeteren.

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

← Vorige Volgende →