cs.CV articles | Gist.Science

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

DiffWind est un cadre de modélisation différentiable guidé par la physique qui permet de reconstruire et de simuler avec précision la dynamique d'objets déformables sous l'effet du vent en unifiant l'interaction vent-objet, la reconstruction vidéo et la simulation, tout en garantissant la validité physique grâce à des contraintes de dynamique des fluides.

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng Cui2026-03-11💻 cs

VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM

Le papier présente VarSplat, un système de SLAM RGB-D basé sur le splatting gaussien 3D qui améliore la robustesse en apprenant explicitement la variance d'apparence par gaussienne pour générer des cartes d'incertitude différentielles guidant l'estimation de pose et l'optimisation.

Anh Thuan Tran, Jana Kosecka2026-03-11💻 cs

Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture

Ce papier présente FootMR, une méthode de raffinement du mouvement des pieds qui améliore la reconstruction 3D dans la capture de mouvement humaine sans marqueurs en levant des repères 2D vers la 3D grâce à des données de capture de mouvement à grande échelle et en introduisant le nouveau jeu de données MOOF pour l'évaluation.

Tom Wehrbein, Bodo Rosenhahn2026-03-11💻 cs

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Ce papier présente AutoViVQA, un grand ensemble de données construit automatiquement pour le Questionnement Visuel en vietnamien, et explore l'utilisation d'architectures basées sur les transformers ainsi que l'évaluation de différentes métriques automatiques pour améliorer l'alignement avec le jugement humain dans ce contexte multilingue.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

Le papier présente DRIFT, une architecture Transformer à double représentation qui fusionne des caractéristiques locales et globales pour améliorer la détection d'objets et l'estimation de la route libre à partir de nuages de points radar 4D, surpassant ainsi les méthodes existantes sur des ensembles de données publics et internes.

Siqi Pei, Andras Palffy, Dariu M. Gavrila2026-03-11💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

Le papier présente TemporalDoRA, une méthode d'adaptation efficace des paramètres intégrant une attention temporelle au sein du goulot d'étranglement d'apprentissage pour améliorer la robustesse et la précision de la réponse aux questions sur des vidéos chirurgicales, validée sur le nouveau jeu de données REAL-Colon-VQA.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque2026-03-11💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

Le papier propose TriFusion-SR, un cadre de diffusion conditionnelle guidé par les ondelettes qui réalise une fusion et une super-résolution conjointes d'images médicales tri-modales en décomposant les caractéristiques en bandes de fréquence pour améliorer la qualité diagnostique et réduire les artefacts.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu Timofte2026-03-11💻 cs

ProGS: Towards Progressive Coding for 3D Gaussian Splatting

Le papier présente ProGS, un nouveau codec de streaming qui organise les données de 3D Gaussian Splatting dans une structure d'octree pour permettre un codage progressif, réduisant ainsi la taille de stockage de 45 fois tout en améliorant la fidélité visuelle de plus de 10 %.

Zhiye Tang, Lingzhuo Liu, Shengjie Jiao, Qiudan Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

GSStream: 3D Gaussian Splatting based Volumetric Scene Streaming System

Ce papier présente GSStream, un système innovant de diffusion de scènes volumétriques en 3D Gaussian Splatting qui combine une prédiction collaborative de la vue et une adaptation du débit par apprentissage par renforcement profond pour surmonter les défis de bande passante et offrir une expérience immersive de haute qualité.

Zhiye Tang, Qiudan Zhang, Lei Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

Le papier présente FrameDiT, une architecture de transformateur de diffusion qui introduit l'attention matricielle au niveau des images pour concilier efficacité et cohérence temporelle dans la génération vidéo, surpassant ainsi les méthodes existantes sur plusieurs benchmarks.

Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen Tran2026-03-11💻 cs

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Ce papier présente EXPLORE-Bench, un nouveau benchmark évaluant la capacité des modèles de langage multimodaux à prédire les scènes finales d'actions à long terme dans des vidéos à la première personne, révélant ainsi un écart significatif par rapport aux performances humaines et l'importance du raisonnement étape par étape.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

Le papier présente FetalAgents, le premier système multi-agents conçu pour orchestrer dynamiquement des experts visuels spécialisés afin d'offrir une analyse complète, précise et automatisée des images et vidéos d'échographie fœtale, générant ainsi des rapports cliniques structurés qui surpassent les modèles existants.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

$M^2$ -Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

Ce papier présente $M^2$ -Occ, un cadre innovant pour la prédiction d'occupation sémantique 3D qui assure une robustesse face aux entrées de caméras incomplètes grâce à une reconstruction masquée multi-vues et un module de mémoire de caractéristiques, améliorant ainsi significativement la précision dans des scénarios de défaillance critique.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun Yang2026-03-11⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Cet article propose SACA, un cadre d'alignement contrastif sensible aux étapes qui améliore la navigation vision-langage en environnement continu en extrayant une supervision dense des trajectoires imparfaites pour surmonter les limites des méthodes d'apprentissage par renforcement et de l'ajustement par supervision.

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

Ce papier présente ENIGMA-360, un nouveau jeu de données synchronisé en vue egocentrique et exocentrique capturé dans un environnement industriel réel, accompagné d'annotations et de résultats de référence pour améliorer la compréhension du comportement humain et la sécurité des travailleurs.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Ce papier présente LAP, un modèle de planification de procédures qui surpasse les méthodes existantes en exploitant la richesse des descriptions textuelles issues d'un modèle vision-langage pour générer des séquences d'actions plus précises dans les vidéos d'instruction.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

LogoDiffuser est une méthode sans entraînement qui génère et stylise des logos multilingues en injectant des cartes d'attention issues d'images de caractères cibles dans un transformateur de diffusion multimodal, garantissant ainsi le contrôle de la structure des lettres sans déformation.

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

Ce papier présente PanoAffordanceNet, un cadre novateur et un nouveau jeu de données 360-AGD conçus pour résoudre les défis de l'ancrage holistique des affordances dans les environnements intérieurs panoramiques en surmontant les distorsions géométriques et la dispersion sémantique grâce à des mécanismes de calibration et de densification spécifiques.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang2026-03-11⚡ eess

Ego: Embedding-Guided Personalization of Vision-Language Models

Ce papier propose une méthode efficace de personnalisation des modèles vision-langage qui exploite les mécanismes d'attention internes pour extraire des tokens visuels mémorisant des concepts spécifiques, permettant ainsi une adaptation performante sans étapes d'entraînement supplémentaires.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Ce papier démontre que les défenses actuelles contre les portes dérobées sont incomplètes car elles se concentrent uniquement sur la suppression des déclencheurs d'entraînement, alors que des déclencheurs alternatifs peuvent exploiter des directions de porte dérobée latentes dans l'espace des caractéristiques pour activer la backdoor.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

← Précédent Suivant →

cs.CV