cs.CV articles | Gist.Science

SGG-R $^{\rm 3}$ : From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

Ce papier présente SGG-R³, un cadre de raisonnement structuré combinant un ajustement fin supervisé avec augmentation des relations et un apprentissage par renforcement optimisé par GSPO, conçu pour générer des graphes de scènes complets et non biaisés en surmontant les problèmes de distribution à longue traîne et de raisonnement insuffisant des modèles actuels.

Jiaye Feng, Qixiang Yin, Yuankun Liu, Tong Mo, Weiping Li2026-03-10💻 cs

Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

Cet article présente EcoG-Bench, un nouveau benchmark bilingue et strict évaluant la capacité des modèles multimodaux à ancrer les déictiques dans le temps et l'espace en synchronisant la parole et les gestes, révélant ainsi un fossé significatif entre les performances humaines et actuelles dû aux limites des interfaces multimodales.

Weijie Zhou, Xuantang Xiong, Zhenlin Hu, Xiaomeng Zhu, Chaoyang Zhao, Honghui Dong, Zhengyou Zhang, Ming Tang, Jinqiao Wang2026-03-10💻 cs

Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality

Cet article présente un cadre de suivi d'instruments chirurgicaux résistant aux occlusions en fusionnant plusieurs modalités de détection au sein d'un graphe de scène dynamique, permettant ainsi une visualisation en réalité augmentée plus robuste et cohérente dans les environnements opératoires complexes.

Jiaming Zhang, Mingxu Liu, Hongchao Shu, Ruixing Liang, Yihao Liu, Ojas Taskar, Amir Kheradmand, Mehran Armand, Alejandro Martin-Gomez2026-03-10💻 cs

On the Feasibility and Opportunity of Autoregressive 3D Object Detection

L'article présente AutoReg3D, un détecteur 3D basé sur LiDAR qui reformule la détection comme une génération de séquence dans un ordre causale de proche en loin, éliminant ainsi les composants traditionnels comme les ancres et la suppression non maximale tout en permettant l'intégration d'outils avancés de modélisation séquentielle.

Zanming Huang, Jinsu Yoo, Sooyoung Jeon, Zhenzhen Liu, Mark Campbell, Kilian Q Weinberger, Bharath Hariharan, Wei-Lun Chao, Katie Z Luo2026-03-10💻 cs

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

Le papier présente TeamHOI, un cadre d'apprentissage par renforcement qui permet à une politique décentralisée unique de gérer des interactions coopératives homme-objet réalistes et physiquement plausibles avec un nombre variable d'agents humains, en combinant une architecture Transformer pour la coordination d'équipe et une stratégie de priorité de mouvement adversaire masquée pour pallier le manque de données.

Stefan Lionar, Gim Hee Lee2026-03-10💻 cs

AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models

Le papier présente AutoTraces, un modèle vision-langage-trajectoire innovant qui exploite les capacités de raisonnement des grands modèles de langage et une nouvelle tokenisation des trajectoires pour prédire avec précision les mouvements humains dans des environnements peuplés, tout en générant automatiquement des chaînes de pensée pour inférer les relations spatio-temporelles.

Teng Wang, Yanting Lu, Ruize Wang2026-03-10💻 cs

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

Ce papier propose un cadre ViSA amélioré pour la navigation aérienne vision-langage, qui surpasse les méthodes actuelles de 70,3 % en taux de réussite grâce à une architecture collaborative permettant aux modèles vision-langage de raisonner directement sur les plans d'image sans entraînement supplémentaire.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

Cette étude présente TickTockVQA, un nouveau jeu de données annoté par des humains contenant des horloges analogiques dans des scénarios réels, ainsi que le cadre d'optimisation Swap-DPO, afin de résoudre les difficultés des modèles vision-langage actuels à lire l'heure et à raisonner spatialement dans des environnements complexes.

Jaeha Choi, Jin Won Lee, Siwoo You, Jangho Lee2026-03-10💻 cs

Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

Cet article propose un cadre innovant guidé par un dictionnaire partagé qui apprend une représentation commune et effectue une inférence dans l'espace des coefficients pour fusionner des images infrarouges et visibles même lorsque la modalité infrarouge manque, évitant ainsi les problèmes de génération incontrôlée tout en améliorant la qualité perceptuelle et les performances de détection.

Yafei Zhang, Meng Ma, Huafeng Li, Yu Liu2026-03-10💻 cs

VSDiffusion: Taming Ill-Posed Shadow Generation via Visibility-Constrained Diffusion

Ce papier présente VSDiffusion, un cadre de diffusion à deux étapes contraint par la visibilité qui intègre des priors de visibilité et des indices d'éclairage pour générer des ombres portées réalistes et géométriquement cohérentes lors de la composition d'images.

Jing Li, Jing Zhang2026-03-10💻 cs

AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis

L'article présente AffordGrasp, un cadre basé sur la diffusion qui génère des poses de préhension humaines physiquement stables et sémantiquement fidèles en comblant le fossé entre les représentations d'objets 3D et les instructions textuelles grâce à une annotation automatique et un processus de conditionnement dual.

Xiaofei Wu, Yi Zhang, Yumeng Liu, Yuexin Ma, Yujiao Shi, Xuming He2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Cet article présente MambaDance, une nouvelle méthode de génération de danse qui remplace les Transformers par un modèle de diffusion basé sur Mamba et utilise une représentation des battements musicaux pour produire des mouvements synchronisés et expressifs, surpassant les approches existantes sur des séquences de toutes durées.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Cet article propose un cadre en deux étapes combinant un modèle de texte-vers-squelette autoregressif et un générateur vidéo conditionné par la pose avec un encodeur de référence adaptatif, afin de produire des vidéos de mouvements humains complexes à partir de descriptions textuelles tout en palliant le manque de données synthétiques dédiées.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun2026-03-10💻 cs

QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration

Le papier présente QualiTeacher, un cadre novateur qui transforme les pseudo-étiquettes imparfaites en signaux d'apprentissage conditionnels basés sur la qualité estimée par une évaluation d'image sans référence, permettant ainsi aux modèles de restauration d'images réelles d'éviter les artefacts et de générer des résultats supérieurs à ceux de leur enseignant.

Fengyang Xiao, Jingjia Feng, Peng Hu, Dingming Zhang, Lei Xu, Guanyi Qin, Lu Li, Chunming He, Sina Farsiu2026-03-10💻 cs

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Cette proposition de solution au 10e défi ABAW présente un cadre multimodal robuste intégrant une attention croisée sécurisée et un dropout de modalité pour surmonter les occlusions, les données manquantes et les déséquilibres de classes, atteignant ainsi une précision de 60,79 % sur le jeu de données Aff-Wild2.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

Speed3R: Sparse Feed-forward 3D Reconstruction Models

Speed3R est un modèle de reconstruction 3D feed-forward qui surmonte la complexité quadratique des méthodes existantes en utilisant un mécanisme d'attention à double branche inspiré de la structure-from-motion, permettant une accélération d'inférence de 12,4 fois avec un compromis minimal sur la précision géométrique.

Weining Ren, Xiao Tan, Kai Han2026-03-10💻 cs

See and Switch: Vision-Based Branching for Interactive Robot-Skill Programming

Ce papier présente « See & Switch », un cadre interactif d'apprentissage et d'exécution robotique qui utilise la vision pour sélectionner dynamiquement des branches dans des graphes de tâches et détecter les contextes inattendus, permettant ainsi aux utilisateurs novices de programmer efficacement des robots pour des tâches de manipulation complexes.

Petr Vanc, Jan Kristof Behrens, Václav Hlaváč, Karla Stepanova2026-03-10💻 cs

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

L'article présente ImageEdit-R1, un cadre multi-agent qui utilise l'apprentissage par renforcement pour coordonner des agents spécialisés dans la compréhension et la génération d'images, permettant ainsi de réaliser des modifications complexes et contextuelles qui surpassent les modèles monolithiques existants.

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

Cet article propose une architecture de classement novatrice et modulaire qui exploite un modèle vision-langage de grande taille (LVLM) pour modéliser explicitement les relations sémantiques entre les images de drones et les vues satellites, améliorant ainsi considérablement la précision de la géolocalisation grâce à une fonction de perte relationnelle innovante.

Bowen Liu, Pengyue Jia, Wanyu Wang, Derong Xu, Jiawei Cheng, Jiancheng Dong, Xiao Han, Zimo Zhao, Chao Zhang, Bowen Yu, Fangyu Hong, Xiangyu Zhao2026-03-10💻 cs

Evaluating Generative Models via One-Dimensional Code Distributions

Ce papier propose une nouvelle approche d'évaluation des modèles génératifs basée sur l'espace des tokens visuels discrets, introduisant des métriques sans entraînement et un benchmark nommé VisForm qui surpassent les méthodes traditionnelles en corrélant mieux avec les jugements humains.

Zexi Jia, Pengcheng Luo, Yijia Zhong, Jinchao Zhang, Jie Zhou2026-03-10💻 cs

← Précédent Suivant →

cs.CV

SGG-R3^{\rm 3}3: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation