cs.CV articles | Gist.Science

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

Le papier présente Penguin-VL, une architecture de modèle vision-langage compacte qui remplace les encodeurs visuels pré-entraînés par contraste traditionnels par un encodeur initialisé à partir d'un grand modèle de langage textuel, démontrant ainsi qu'une meilleure représentation visuelle permet d'atteindre des performances supérieures à celles des modèles plus volumineux sur des tâches complexes tout en étant adaptée aux dispositifs à ressources limitées.

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

Le papier présente SUREON, un vaste ensemble de données et deux modèles de vision-langage qui exploitent les narrations pédagogiques issues de vidéos chirurgicales pour doter l'IA d'une capacité de raisonnement chirurgical, surpassant ainsi les modèles généraux existants sur des tâches de sécurité, de justification de décision et de prévision.

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

Le papier présente SCOPE, un cadre plug-and-play qui améliore la segmentation 3D few-shot incrémentale en enrichissant les prototypes de nouvelles classes avec des informations contextuelles issues des régions d'arrière-plan non étiquetées, atteignant ainsi des performances de pointe sur les jeux de données ScanNet et S3DIS tout en minimisant l'oubli catastrophique.

Vishal Thengane, Zhaochong An, Tianjin Huang, Son Lam Phung, Abdesselam Bouzerdoum, Lu Yin, Na Zhao, Xiatian Zhu2026-03-09🤖 cs.LG

BEVLM: Distilling Semantic Knowledge from LLMs into Bird's-Eye View Representations

Le papier présente BEVLM, un cadre qui connecte les modèles de langage à grande échelle à des représentations de vue aérienne (BEV) enrichies par distillation sémantique, améliorant ainsi significativement le raisonnement spatial et les performances de conduite autonome en boucle fermée.

Thomas Monninger, Shaoyuan Xie, Qi Alfred Chen, Sihao Ding2026-03-09🤖 cs.AI

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Le papier présente Omni-Diffusion, le premier modèle de langage multimodal universel entièrement basé sur un processus de diffusion discrète masquée, qui unifie la compréhension et la génération de texte, de parole et d'images en capturant directement la distribution conjointe de leurs tokens discrets.

Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu2026-03-09💻 cs

Multimodal Large Language Models as Image Classifiers

Cette étude démontre que les performances apparentes inférieures des modèles de langage multimodaux en classification d'images sont principalement dues à des protocoles d'évaluation défectueux et à un bruit dans les données de référence, et non à une véritable déficience des modèles, dont la qualité s'améliore considérablement avec des annotations corrigées.

Nikita Kisel, Illia Volkov, Klara Janouskova, Jiri Matas2026-03-09💻 cs

Motion Illusions Generated Using Predictive Neural Networks Also Fool Humans

Cet article démontre que les illusions de mouvement statiques résultent des mécanismes prédictifs du cerveau en présentant un modèle génératif (EIGen) qui crée de telles illusions et confirme leur efficacité sur des participants humains, soutenant ainsi l'idée que nous percevons les prédictions de notre cerveau plutôt que l'entrée visuelle brute.

Lana Sinapayen, Eiji Watanabe2026-03-06💻 cs

Seeing Through Uncertainty: A Free-Energy Approach for Real-Time Perceptual Adaptation in Robust Visual Navigation

Cet article présente FEP-Nav, un cadre d'inspiration biologique qui utilise le principe de l'énergie libre pour permettre une adaptation perceptive en temps réel et assurer une navigation visuelle robuste face à des perturbations sensorielles, en minimisant l'énergie variationnelle libre sans recourir à des mises à jour par gradient.

Maytus Piriyajitakonkij, Rishabh Dev Yadav, Mingfei Sun + 2 more2026-03-06💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

Le papier présente InstructHumans, un cadre innovant pour l'édition de textures 3D d'humains animables via des instructions, qui améliore les méthodes existantes en introduisant une version modifiée de l'échantillonnage de distillation de score (SDS-E) pour garantir la cohérence avec l'avatar source tout en permettant des modifications textuelles fidèles et détaillées.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

Ce papier présente EasyAnimate, un cadre de génération vidéo haute performance qui combine l'attention hybride par fenêtres, la rétropropagation de récompense et des stratégies d'entraînement innovantes pour atteindre des résultats de pointe en qualité et en efficacité.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

Motion-Aware Animatable Gaussian Avatars Deblurring

Cette présentation introduit une méthode novatrice permettant de reconstruire directement des avatars humains 3D nets à partir de vidéos floues en combinant un modèle physique de formation du flou avec un modèle de mouvement humain pour optimiser conjointement la représentation et les paramètres de mouvement.

Muyao Niu, Yifan Zhan, Qingtian Zhu + 5 more2026-03-06💻 cs

Track Anything Behind Everything: Zero-Shot Amodal Video Object Segmentation

Le papier présente TABE, une nouvelle méthode de segmentation vidéo amodale en zéro-shot qui utilise un masque de requête unique et un modèle de diffusion vidéo préentraîné affiné à l'inférence pour reconstruire les objets même lorsqu'ils sont complètement occlus.

Finlay G. C. Hudson, William A. P. Smith2026-03-06💻 cs

Learnable Sparsity for Vision Generative Models

Ce papier propose un cadre d'élagage structurel agnostique au modèle qui apprend un masque différentiable pour réduire jusqu'à 20 % des paramètres des modèles de diffusion sans réentraînement, grâce à une nouvelle fonction objectif end-to-end et une technique de contrôle de gradient par étapes temporelles pour optimiser l'efficacité mémoire.

Yang Zhang, Er Jin, Wenzhong Liang + 5 more2026-03-06💻 cs

Flatness Guided Test-Time Adaptation for Vision-Language Models

Cet article propose le cadre d'adaptation FGA, qui améliore les modèles vision-langage en exploitant la platitude acquise lors de l'entraînement pour guider l'adaptation à la test sans nécessiter de mises à jour coûteuses de paramètres.

Aodi Li, Liansheng Zhuang, Xiao Long + 2 more2026-03-06💻 cs

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Cet article propose un cadre de manipulation 3D dynamique qui intègre la modélisation du monde en 3D et des tâches d'apprentissage auto-supervisé pour doter les politiques de manipulation d'une « prévoyance 3D », améliorant ainsi considérablement leurs performances dans des tâches impliquant des mouvements en profondeur sans compromettre la vitesse d'inférence.

Yuxin He, Ruihao Zhang, Xianzu Wu + 3 more2026-03-06💻 cs

MedFuncta: A Unified Framework for Learning Efficient Medical Neural Fields

Le papier présente MedFuncta, un cadre unifié permettant l'entraînement à grande échelle de champs neuronaux sur des données médicales via une représentation latente partagée, des améliorations théoriques des activations SIREN et une stratégie d'apprentissage méta efficace, tout en libérant le code et le premier jeu de données à grande échelle dédié, MedNF.

Paul Friedrich, Florentin Bieder, Julian McGinnis + 3 more2026-03-06💻 cs

RapidPoseTriangulation: Multi-view Multi-person Whole-body Human Pose Triangulation in a Millisecond

L'article présente RapidPoseTriangulation, un algorithme innovant capable d'estimer en une milliseconde la pose corporelle complète de multiples personnes à partir de plusieurs vues, tout en assurant une forte généralisation et en rendant le code source publiquement accessible.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-06💻 cs

Noise2Ghost: Self-supervised deep convolutional reconstruction for ghost imaging

Ce papier présente Noise2Ghost, une nouvelle méthode d'imagerie fantôme auto-supervisée basée sur l'apprentissage profond qui permet une reconstruction de haute qualité avec réduction du bruit sans nécessiter de données de référence propres, rendant ainsi possible l'imagerie à faible luminosité pour des applications sensibles comme l'imagerie par fluorescence X in vivo.

Mathieu Manni, Dmitry Karpov, K. Joost Batenburg + 2 more2026-03-06🔬 physics

Collaborative Learning of Local 3D Occupancy Prediction and Versatile Global Occupancy Mapping

Ce papier présente LMPOcc, un cadre plug-and-play qui améliore la prédiction d'occupation 3D locale en intégrant des priors d'occupation globaux à long terme tout en mettant à jour continuellement des cartes mondiales évolutives pour une compréhension plus robuste et complète des environnements extérieurs.

Shanshuai Yuan, Julong Wei, Muer Tie + 3 more2026-03-06💻 cs

PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

Le papier présente PhysLLM, un cadre d'optimisation collaborative qui intègre des modèles de langage à grande échelle avec des composants spécifiques à la photopléthysmographie à distance pour surmonter les défis de l'éclairage et du mouvement grâce à des stratégies d'alignement sémantique et de rééquilibrage adaptatif, atteignant ainsi des performances de pointe sur plusieurs jeux de données.

Yiping Xie, Bo Zhao, Mingtong Dai + 6 more2026-03-06💻 cs

← Précédent Suivant →