cs.CV articles | Gist.Science

SCAN: Visual Explanations with Self-Confidence and Analysis Networks

Ce papier présente SCAN, un cadre universel fondé sur les principes de l'auto-encodeur et du goulot d'étranglement de l'information, qui génère des cartes de confiance haute résolution pour fournir des explications visuelles fidèles et comparables à la fois pour les réseaux de neurones convolutifs et les architectures Transformer.

Gwanghee Lee, Sungyoon Jeong, Kyoungson Jhang2026-03-09💻 cs

AV-Unified: A Unified Framework for Audio-visual Scene Understanding

Ce papier présente AV-Unified, un cadre unifié qui permet l'apprentissage conjoint de multiples tâches de compréhension de scènes audio-visuelles en standardisant leurs entrées et sorties sous forme de tokens discrets et en intégrant des modules de perception spatio-temporelle multi-échelle et de guidage intermodale.

Guangyao Li, Xin Wang, Wenwu Zhu2026-03-09💻 cs

Spatial Calibration of Diffuse LiDARs

Cet article présente une méthode de calibration spatiale simple pour les LiDARs à temps de vol diffus, permettant d'établir une correspondance explicite entre chaque pixel LiDAR et son image RGB en estimant sa zone d'impact et sa sensibilité relative grâce à l'utilisation d'un patch rétroréfléchissant balayé.

Nikhil Behari, Ramesh Raskar2026-03-09💻 cs

NEGATE: Constrained Semantic Guidance for Linguistic Negation in Text-to-Video Diffusion

Le papier présente NEGATE, une méthode sans réentraînement qui traite la négation linguistique dans les modèles de diffusion vidéo comme une contrainte de faisabilité structurée, permettant d'assurer la conformité aux négations tout en préservant la fidélité visuelle grâce à une projection géométrique des mises à jour sémantiques.

Taewon Kang, Ming C. Lin2026-03-09💻 cs

SurgFormer: Scalable Learning of Organ Deformation with Resection Support and Real-Time Inference

Le papier présente SurgFormer, un transformateur multirésolution à portes conçu pour simuler en temps réel la déformation des tissus mous et les résections chirurgicales sur des maillages volumétriques grâce à un apprentissage supervisé par XFEM.

Ashkan Shahbazi, Elaheh Akbari, Kyvia Pereira, Jon S. Heiselman, Annie C. Benson, Garrison L. H. Johnston, Jie Ying Wu, Nabil Simaan, Michael I. Miga, Soheil Kolouri2026-03-09💻 cs

Modeling and Measuring Redundancy in Multisource Multimodal Data for Autonomous Driving

Cette étude démontre que la réduction sélective des redondances dans les données multisources et multimodales des véhicules autonomes améliore les performances de détection d'objets, soulignant ainsi l'importance d'une approche centrée sur la qualité des données.

Yuhan Zhou, Mehri Sattari, Haihua Chen, Kewei Sha2026-03-09💻 cs

EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

Le papier présente EgoReasoner, un cadre en deux étapes qui aligne les structures de raisonnement et les signaux de récompense sur les spécificités cognitives de différentes tâches de raisonnement 4D en vidéo egocentrique, permettant à un modèle de 3 milliards de paramètres d'atteindre des performances supérieures à celles de modèles plus grands sur le benchmark HD-EPIC.

Fangrui Zhu, Yunfeng Xi, Jianmo Ni, Mu Cai, Boqing Gong, Long Zhao, Chen Qu, Ian Miao, Yi Li, Cheng Zhong, Huaizu Jiang, Shwetak Patel2026-03-09💻 cs

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

Le papier présente Penguin-VL, une architecture de modèle vision-langage compacte qui remplace les encodeurs visuels pré-entraînés par contraste traditionnels par un encodeur initialisé à partir d'un grand modèle de langage textuel, démontrant ainsi qu'une meilleure représentation visuelle permet d'atteindre des performances supérieures à celles des modèles plus volumineux sur des tâches complexes tout en étant adaptée aux dispositifs à ressources limitées.

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

Le papier présente SUREON, un vaste ensemble de données et deux modèles de vision-langage qui exploitent les narrations pédagogiques issues de vidéos chirurgicales pour doter l'IA d'une capacité de raisonnement chirurgical, surpassant ainsi les modèles généraux existants sur des tâches de sécurité, de justification de décision et de prévision.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

Le papier présente SCOPE, un cadre plug-and-play qui améliore la segmentation 3D few-shot incrémentale en enrichissant les prototypes de nouvelles classes avec des informations contextuelles issues des régions d'arrière-plan non étiquetées, atteignant ainsi des performances de pointe sur les jeux de données ScanNet et S3DIS tout en minimisant l'oubli catastrophique.

Vishal Thengane, Zhaochong An, Tianjin Huang, Son Lam Phung, Abdesselam Bouzerdoum, Lu Yin, Na Zhao, Xiatian Zhu2026-03-09🤖 cs.LG

BEVLM: Distilling Semantic Knowledge from LLMs into Bird's-Eye View Representations

Le papier présente BEVLM, un cadre qui connecte les modèles de langage à grande échelle à des représentations de vue aérienne (BEV) enrichies par distillation sémantique, améliorant ainsi significativement le raisonnement spatial et les performances de conduite autonome en boucle fermée.

Thomas Monninger, Shaoyuan Xie, Qi Alfred Chen, Sihao Ding2026-03-09🤖 cs.AI

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Le papier présente Omni-Diffusion, le premier modèle de langage multimodal universel entièrement basé sur un processus de diffusion discrète masquée, qui unifie la compréhension et la génération de texte, de parole et d'images en capturant directement la distribution conjointe de leurs tokens discrets.

Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu2026-03-09💻 cs

Multimodal Large Language Models as Image Classifiers

Cette étude démontre que les performances apparentes inférieures des modèles de langage multimodaux en classification d'images sont principalement dues à des protocoles d'évaluation défectueux et à un bruit dans les données de référence, et non à une véritable déficience des modèles, dont la qualité s'améliore considérablement avec des annotations corrigées.

Nikita Kisel, Illia Volkov, Klara Janouskova, Jiri Matas2026-03-09💻 cs

Motion Illusions Generated Using Predictive Neural Networks Also Fool Humans

Cet article démontre que les illusions de mouvement statiques résultent des mécanismes prédictifs du cerveau en présentant un modèle génératif (EIGen) qui crée de telles illusions et confirme leur efficacité sur des participants humains, soutenant ainsi l'idée que nous percevons les prédictions de notre cerveau plutôt que l'entrée visuelle brute.

Lana Sinapayen, Eiji Watanabe2026-03-06💻 cs

Seeing Through Uncertainty: A Free-Energy Approach for Real-Time Perceptual Adaptation in Robust Visual Navigation

Cet article présente FEP-Nav, un cadre d'inspiration biologique qui utilise le principe de l'énergie libre pour permettre une adaptation perceptive en temps réel et assurer une navigation visuelle robuste face à des perturbations sensorielles, en minimisant l'énergie variationnelle libre sans recourir à des mises à jour par gradient.

Maytus Piriyajitakonkij, Rishabh Dev Yadav, Mingfei Sun + 2 more2026-03-06💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

Le papier présente InstructHumans, un cadre innovant pour l'édition de textures 3D d'humains animables via des instructions, qui améliore les méthodes existantes en introduisant une version modifiée de l'échantillonnage de distillation de score (SDS-E) pour garantir la cohérence avec l'avatar source tout en permettant des modifications textuelles fidèles et détaillées.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

Ce papier présente EasyAnimate, un cadre de génération vidéo haute performance qui combine l'attention hybride par fenêtres, la rétropropagation de récompense et des stratégies d'entraînement innovantes pour atteindre des résultats de pointe en qualité et en efficacité.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

Motion-Aware Animatable Gaussian Avatars Deblurring

Cette présentation introduit une méthode novatrice permettant de reconstruire directement des avatars humains 3D nets à partir de vidéos floues en combinant un modèle physique de formation du flou avec un modèle de mouvement humain pour optimiser conjointement la représentation et les paramètres de mouvement.

Muyao Niu, Yifan Zhan, Qingtian Zhu + 5 more2026-03-06💻 cs

Track Anything Behind Everything: Zero-Shot Amodal Video Object Segmentation

Le papier présente TABE, une nouvelle méthode de segmentation vidéo amodale en zéro-shot qui utilise un masque de requête unique et un modèle de diffusion vidéo préentraîné affiné à l'inférence pour reconstruire les objets même lorsqu'ils sont complètement occlus.

Finlay G. C. Hudson, William A. P. Smith2026-03-06💻 cs

Learnable Sparsity for Vision Generative Models

Ce papier propose un cadre d'élagage structurel agnostique au modèle qui apprend un masque différentiable pour réduire jusqu'à 20 % des paramètres des modèles de diffusion sans réentraînement, grâce à une nouvelle fonction objectif end-to-end et une technique de contrôle de gradient par étapes temporelles pour optimiser l'efficacité mémoire.

Yang Zhang, Er Jin, Wenzhong Liang + 5 more2026-03-06💻 cs

← Précédent Suivant →