cs.CV articles | Gist.Science

Point Cloud as a Foreign Language for Multi-modal Large Language Model

Le papier présente SAGE, le premier modèle de langage multimodal (MLLM) 3D de bout en bout qui traite directement les nuages de points bruts comme une « langue étrangère » via un tokeniseur léger et une optimisation par préférence, surpassant ainsi les méthodes existantes en efficacité computationnelle et en robustesse.

Sneha Paul, Zachary Patterson, Nizar Bouguila2026-03-11💻 cs

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Le papier présente MM-Zero, un cadre d'apprentissage par renforcement innovant qui permet pour la première fois l'auto-évolution sans aucune donnée d'entrée de modèles de vision-langage en orchestrant trois rôles spécialisés (Propositeur, Codeur et Résolveur) générant et raisonnant sur du contenu visuel synthétique.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu2026-03-11🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Ce papier propose un cadre d'apprentissage métrique géométrique utilisant des descripteurs d'angles inter-articulaires invariants pour améliorer la reconnaissance de la langue des signes en contexte few-shot et cross-lingual, surpassant les méthodes basées sur les coordonnées normalisées grâce à une robustesse accrue face aux variations de vue et d'échelle.

Chayanin Chamachot, Kanokphan Lertniponphan2026-03-11💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

Le papier présente TubeMLLM, un modèle fondamental unifié qui améliore la perception et la génération d'anatomies vasculaires en intégrant des prières topologiques via des prompts naturels, démontrant ainsi des performances supérieures en généralisation hors distribution et en transfert cross-modalité sur le benchmark multimodal TubeMData.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun Gu2026-03-11💻 cs

Distributed Convolutional Neural Networks for Object Recognition

Ce papier propose une nouvelle fonction de perte pour entraîner un réseau de neurones convolutifs distribué (DisCNN) afin d'extraire et de reconnaître uniquement les caractéristiques d'une classe positive spécifique, permettant ainsi une détection d'objets efficace dans des arrière-plans complexes grâce à une architecture légère et une excellente généralisation.

Liang Sun2026-03-11💻 cs

UniField: A Unified Field-Aware MRI Enhancement Framework

Le papier présente UniField, un cadre unifié d'amélioration IRM qui surpasse les méthodes existantes en exploitant des modèles de fondation 3D pré-entraînés, en intégrant un mécanisme de rectification spectrale conscient du champ physique pour préserver les détails, et en libérant un jeu de données multi-champs massif pour améliorer la généralisation.

Yiyang Lin, Chenhui Wang, Zhihao Peng, Yixuan Yuan2026-03-11💻 cs

HelixTrack: Event-Based Tracking and RPM Estimation of Propeller-like Objects

HelixTrack est une méthode entièrement événementielle qui permet le suivi en temps réel et l'estimation précise du régime de rotation (RPM) d'objets propulseurs en mouvement, surpassant les approches traditionnelles grâce à un filtrage de Kalman et à l'introduction du nouveau jeu de données TQE.

Radim Spetlik, Michal Pliska, Vojtech Vrba, Jiri Matas2026-03-11💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

Le papier présente BridgeDiff, un cadre basé sur la diffusion qui améliore la synthèse de vêtements plats pour les essais virtuels en comblant le fossé entre les observations humaines et les représentations canoniques grâce à un module de conditionnement des vêtements et un module de contrainte structurelle.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu Liu2026-03-11🤖 cs.AI

RAE-NWM: Navigation World Model in Dense Visual Representation Space

Le papier propose RAE-NWM, un modèle de monde de navigation qui opère dans un espace de représentation visuelle dense (DINOv2) plutôt que dans un espace latent compressé, afin de préserver les informations structurelles fines et d'améliorer la précision du contrôle et de la planification grâce à l'utilisation d'un transformateur de diffusion conditionnel.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang Meng2026-03-11💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Ce papier propose le module Geometric Semantic Decoupling (GSD), une méthode sans paramètres qui améliore la généralisation des détecteurs d'images générées par IA en éliminant les raccourcis sémantiques pour forcer le modèle à se concentrer sur des preuves de falsification invariantes.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren2026-03-11💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

Ce papier présente Poly-DETR, un transformateur de détection de polygones qui reformule la segmentation d'instances comme une régression de sommets via une représentation polaire pour résoudre le compromis entre haute résolution et inférence légère, surpassant les méthodes existantes en précision et en efficacité mémoire.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Cette étude propose une approche multi-modèle basée sur l'apprentissage profond et la vision par ordinateur pour améliorer la sécurité et la fiabilité des véhicules autonomes en intégrant la détection de panneaux, de véhicules et de voies ainsi que l'apprentissage comportemental via des réseaux de neurones pré-entraînés et des techniques d'augmentation de données.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun Mukherjee2026-03-11🤖 cs.AI

Multimodal Graph Representation Learning with Dynamic Information Pathways

Ce papier propose DiP, un cadre novateur d'apprentissage de représentations pour les graphes multimodaux qui utilise des nœuds pseudo-spécifiques et des voies d'information dynamiques pour réaliser une propagation de messages adaptative, expressive et parcimonieuse avec une complexité linéaire, surpassant ainsi les méthodes existantes sur diverses tâches.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Cet article propose un cadre d'apprentissage à grande échelle pour la navigation vision-langage, tirant parti de vidéos web et de représentations géométriques implicites extraites directement des images RGB pour surmonter les limites des simulateurs et atteindre des performances de pointe avec une généralisation zéro-shot.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

ForgeDreamer est un nouveau cadre de génération textuelle vers 3D conçu pour les applications industrielles qui surmonte les limites des méthodes actuelles grâce à un mécanisme d'ensemble LoRA multi-experts pour une généralisation inter-catégories et une approche d'amélioration géométrique par hypergraphe croisé pour assurer une cohérence structurelle de précision.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong2026-03-11💻 cs

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

Cet article propose de nouvelles stratégies d'entraînement et des pertes pour accélérer l'apprentissage du splatting gaussien 3D en raccourcissant les listes de gaussiennes nécessaires au rendu, grâce à un rétrécissement régulier des échelles et une contrainte d'entropie, tout en intégrant un planificateur de résolution progressive pour améliorer l'efficacité sans sacrifier la qualité.

Jiaqi Liu, Zhizhong Han2026-03-11💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

Ce papier présente SVOR, un cadre robuste pour la suppression d'objets vidéo qui surmonte les défis du monde réel tels que les ombres et les masques défectueux grâce à trois innovations clés : MUSE, DA-Seg et un entraînement en deux étapes, atteignant ainsi des résultats state-of-the-art.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs

Learning Convex Decomposition via Feature Fields

Cet article propose une nouvelle approche d'apprentissage de champs de caractéristiques pour réaliser la première décomposition convexe en avant dans un monde ouvert, permettant de décomposer efficacement des formes 3D en corps convexes pour des applications telles que la détection de collisions.

Yuezhi Yang, Qixing Huang, Mikaela Angelina Uy, Nicholas Sharp2026-03-11💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

Le papier présente CogBlender, un cadre innovant permettant une intervention continue et multidimensionnelle des propriétés cognitives (telles que la valence, l'éveil, la dominance et la mémorabilité) lors de la génération d'images à partir de texte, en reliant l'espace cognitif au manifold sémantique via des ancres cognitives et un champ de vitesse interpolé.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

Ce papier présente MDTrack, un cadre novateur pour le suivi d'objets multimodaux qui améliore les performances grâce à une fusion adaptative par experts spécialisés et une propagation temporelle découplée via des modèles d'espace d'état, surpassant ainsi les méthodes existantes sur plusieurs benchmarks.

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong Cheng2026-03-11💻 cs

← Précédent Suivant →