cs.CV papers | Gist.Science

Grounding Synthetic Data Generation With Vision and Language Models

Deze paper introduceert ARAS400k, een groot schaalbaar dataset voor remote sensing dat synthetische data combineert met echte beelden en een visueel-taal framework voor interpreteerbare augmentatie en evaluatie, wat resulteert in superieure prestaties voor semantische segmentatie en beeldbeschrijving.

Ümit Mert Ça\u{g}lar, Alptekin Temizel2026-03-11🤖 cs.AI

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

Dit paper introduceert X-GS, een uitbreidbaar open raamwerk dat 3D-Gaussische splatting (3DGS) verenigt met multimodale modellen via een efficiënte pijplijn die real-time semantische 3D-scènes genereert uit ongepositioneerde video's voor downstream-taken zoals objectdetectie en embodied AI.

Yueen Ma, Irwin King2026-03-11💬 cs.CL

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

Dit paper introduceert OTPL-VIO, een robuust stereo visueel-inertiaal odometrie-systeem dat gebruikmaakt van optimaal transport voor lijnassociatie en adaptieve onzekerheidsweging om nauwkeurigheid en stabiliteit te verbeteren in uitdagende omgevingen met weinig textuur en veranderende verlichting.

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan Wang2026-03-11💻 cs

When to Lock Attention: Training-Free KV Control in Video Diffusion

Het paper introduceert KV-Lock, een trainingsvrije methode voor video-editing die dynamisch de achtergrondvastlegging en de conditionele geleiding aanpast op basis van hallucinatie-detectie om achtergrondconsistentie en voorgrondkwaliteit te optimaliseren in DiT-gebaseerde videodiffusiemodellen.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang2026-03-11🤖 cs.AI

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

DiffWind is een fysica-informeerd, differentieerbaar framework dat windgedreven objectdynamica uit video's reconstrueert en simuleert door windkrachten en objectbewegingen gezamenlijk te optimaliseren via differentieerbare rendering, de Material Point Method en de Lattice Boltzmann Method.

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng Cui2026-03-11💻 cs

VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM

VarSplat is een robuust RGB-D SLAM-systeem dat onzekerheid bewust maakt door per-splat variatie te leren en een onzekerheidskaart te renderen, waardoor de tracking en mapping in uitdagende omgevingen zoals gebieden met weinig textuur of transparante oppervlakken aanzienlijk worden verbeterd.

Anh Thuan Tran, Jana Kosecka2026-03-11💻 cs

Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture

Deze paper introduceert FootMR, een methode die de nauwkeurigheid van 3D-voetbeweging in markerloze monoscopische menselijke bewegingsherstel verbetert door 2D-voetkeypoints te verfijnen met behulp van bestaande motion capture-data, en introduceert bovendien het MOOF-dataset voor evaluatie.

Tom Wehrbein, Bodo Rosenhahn2026-03-11💻 cs

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Dit paper introduceert AutoViVQA, een groot automatisch gegenereerd dataset voor Vietnamese visuele vraagbeantwoording, en onderzoekt transformer-architecturen en geautomatiseerde evaluatiemetrics in een meertalige context.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

Het artikel introduceert DRIFT, een transformer-model dat door middel van een dubbel-pad architectuur lokale en globale context uit 4D-radar-puntenwolkdata fuseert om de prestaties bij objectdetectie en vrije-rijbaan-schatting voor autonoom rijden aanzienlijk te verbeteren.

Siqi Pei, Andras Palffy, Dariu M. Gavrila2026-03-11💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

Deze paper introduceert TemporalDoRA, een parameter-efficiënte fijnafstemmingsmethode die tijdsbewuste Multi-Head Attention in het low-rank bottleneck van een visuele encoder integreert om de robuustheid en prestaties van chirurgische video-VQA-systemen, getest op het nieuwe REAL-Colon-VQA-dataset, aanzienlijk te verbeteren.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque2026-03-11💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

Dit artikel introduceert TriFusion-SR, een golflet-gestuurd conditioneel diffusieframework dat medische beeldfusie en superresolutie voor drie modaliteiten gelijktijdig uitvoert door frequentiebewuste interactie en adaptieve ruimtelijk-frequentie fusie, wat leidt tot significante verbeteringen in beeldkwaliteit en diagnoseondersteuning.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu Timofte2026-03-11💻 cs

ProGS: Towards Progressive Coding for 3D Gaussian Splatting

Dit paper introduceert ProGS, een nieuwe codec die 3D Gaussian Splatting-data via een octree-structuur en wederzijdse informatieversterking comprimeert, waardoor een 45-voudige verkleining van opslagruimte wordt bereikt met een verbeterde visuele kwaliteit en ondersteuning voor progressieve codering.

Zhiye Tang, Lingzhuo Liu, Shengjie Jiao, Qiudan Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

GSStream: 3D Gaussian Splatting based Volumetric Scene Streaming System

In dit artikel wordt GSStream gepresenteerd, een nieuw volumetrisch streaming-systeem voor 3D Gaussian Splatting dat collaboratieve viewportvoorspelling en deep reinforcement learning combineert om de hoge bandbreedte-eisen van real-time 3D-scènes efficiënt op te lossen en zo superieure beeldkwaliteit en netwerknuttigheid te bereiken.

Zhiye Tang, Qiudan Zhang, Lei Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

Het artikel introduceert FrameDiT, een nieuw video-generatiemodel dat Matrix Attention gebruikt om de efficiëntie van lokale factoren en de kwaliteitsvolle ruimtetijd-coherentie van volledige 3D-attentie te combineren, wat leidt tot state-of-the-art resultaten.

Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen Tran2026-03-11💻 cs

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Dit paper introduceert EXPLORE-Bench, een benchmark voor het evalueren van het vermogen van multimodale grote taalmodellen tot lang-horizon redenering in egocentrische omgevingen, en toont aan dat deze modellen significant achterblijven bij menselijke prestaties ondanks verbeteringen door stapsgewijze redenering.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

FetalAgents is het eerste multi-agent systeem dat door middel van een lichtgewicht coördinatieframework gespecialiseerde visuele experts dynamisch coördineert om een robuuste, end-to-end oplossing te bieden voor analyse, meting en rapportage van foetale echografiebeelden en -video's.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

$M^2$ -Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

Dit paper introduceert $M^2$ -Occ, een robuust framework voor 3D semantische bezettingsvoorspelling dat onvolledige meercamera-invoer verwerkt door het herstel van ontbrekende weergaven en het gebruik van een geheugenmodule voor semantische consistentie, wat leidt tot aanzienlijk betere prestaties bij camera-uitval zonder in te leveren op volledige weergaven.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun Yang2026-03-11⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Dit paper introduceert SACA, een nieuw raamwerk voor Vision-Language Navigation in continue omgevingen dat stap-voor-stap contrastieve uitlijning toepast om de beperkingen van bestaande trainingsparadigma's te overwinnen en zo state-of-the-art prestaties te bereiken.

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

Deze paper introduceert ENIGMA-360, een nieuw dataset met gesynchroniseerde egocentrische en exocentrische video's uit een echte industriële omgeving, die is gelabeld voor het bestuderen van menselijk gedrag en het evalueren van bestaande modellen voor taken zoals tijdelijke actiesegmentatie en mens-object-interactie.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Dit paper introduceert LAP, een taalbewust planningsmodel dat visuele waarnemingen vertaalt naar tekstbeschrijvingen om de ambiguïteit in instructievideo's te overwinnen en zo nieuwe state-of-the-art resultaten te behalen voor het plannen van acties.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

← Vorige Volgende →

cs.CV