cs.CV articles | Gist.Science

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Cet article présente DuNe, un cadre d'apprentissage dual innovant qui résout le problème de la généralisation de domaine pour la segmentation sémantique LiDAR en présence de labels bruités, surpassant les méthodes existantes grâce à une cohérence au niveau des caractéristiques et un filtrage des prédictions basé sur la confiance.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer Stiefelhagen2026-03-11🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

Le papier présente RECODE, un cadre agentique qui améliore le raisonnement visuel des modèles multimodaux en transformant l'analyse d'images structurées en une tâche de génération et de vérification itérative de code exécutable, surpassant ainsi les méthodes traditionnelles sur plusieurs benchmarks.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi2026-03-11🤖 cs.AI

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Cet article propose un cadre de compression vidéo neuronale en temps réel unifiant le codage intra et inter au sein d'un modèle unique, capable de gérer efficacement les disocclusions et de réduire la propagation d'erreurs, surpassant ainsi l'état de l'art DCVC-RT avec une réduction moyenne de 12,1 % du taux de bits BD.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong Liu2026-03-11💻 cs

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Ce papier présente FALCON, une nouvelle approche qui améliore les modèles vision-langage-action en injectant des tokens spatiaux 3D riches, dérivés de modèles de fondation spatiale, directement dans la tête d'action pour combler le fossé de raisonnement spatial et atteindre des performances de pointe sur des tâches simulées et réelles.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Ce papier démontre qu'une sélection judicieuse d'un sous-ensemble de repères corporels, combinée à une imputation par splines, permet de reconnaître les signes isolés de la LIBRAS avec une précision égale ou supérieure aux méthodes de pointe tout en accélérant le traitement de plus de cinq fois par rapport à l'approche précédente.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. Paixão2026-03-11💻 cs

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

L'article présente SynHLMA, un cadre novateur générant des séquences de manipulation manuelle d'objets articulés à partir d'instructions langagières en utilisant une représentation discrète des interactions main-objet et un modèle d'apprentissage aligné sur le langage pour assurer la cohérence fonctionnelle et dynamique.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo2026-03-11🤖 cs.AI

Who Made This? Fake Detection and Source Attribution with Diffusion Features

Ce papier présente FRIDA, un cadre léger et efficace en données qui exploite les caractéristiques d'un modèle Stable Diffusion pré-entraîné pour détecter les images synthétiques sans apprentissage et attribuer leur source avec une robustesse supérieure aux générateurs non vus.

Simone Bonechi, Paolo Andreini, Barbara Toniella Corradini2026-03-11💻 cs

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

Ce papier propose SPAN, une nouvelle méthode d'alignement spatial et de projection qui améliore la détection d'objets 3D monoculaire en imposant des contraintes géométriques globales et une cohérence entre les boîtes 3D et 2D, tout en utilisant une stratégie d'apprentissage hiérarchique pour assurer la stabilité de l'entraînement.

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming Yang2026-03-11💻 cs

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

Ce papier présente MediRound, un modèle de base et un nouveau jeu de données MR-MedSeg conçus pour la tâche de segmentation médicale par raisonnement multi-tours, permettant une interaction éducative progressive avec un mécanisme de correction pour limiter la propagation des erreurs.

Qinyue Tong, Ziqian Lu, Jun Liu, Rui Zuo, Zheming Lu2026-03-11🤖 cs.AI

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

Cet article propose le module Adaptive Diversity Cache (ADC), une méthode sans entraînement et plug-and-play qui atténue le biais à longue traîne dans la détection d'interactions humain-objet en accumulant des représentations de caractéristiques diversifiées et en allouant dynamiquement la capacité des caches pour améliorer la détection des catégories rares.

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong Li2026-03-11🤖 cs.AI

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

Le papier propose V-Attack, une nouvelle méthode d'attaque adversariale pour les grands modèles vision-langage qui cible les caractéristiques de valeur (V) désengagées plutôt que les patchs entremêlés, permettant ainsi un contrôle sémantique local précis et une amélioration significative du taux de réussite des attaques.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin Chen2026-03-11💻 cs

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

Ce papier présente UPA-RFAS, un cadre unifié qui génère des patches adversariaux universels et transférables capables de compromettre divers modèles Vision-Language-Action (VLA) dans des scénarios boîte noire et des transitions simulation-réalité en exploitant des mécanismes spécifiques aux caractéristiques, à l'attention et à la sémantique.

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong Jiang2026-03-11🤖 cs.AI

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

Le papier présente AFRO, un cadre d'apprentissage auto-supervisé qui génère des représentations 3D dynamiques pour la robotique en modélisant les transitions d'état via un processus de diffusion, éliminant ainsi le besoin de reconstruction géométrique explicite et améliorant significativement les taux de réussite dans des tâches de manipulation réelles et simulées.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing Xu2026-03-11💻 cs

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Cet article présente le premier cadre formel pour les modèles de monde audiovisuels (AVWM), introduisant le jeu de données AVW-4k et le modèle AV-CDiT basé sur la diffusion pour simuler de manière synchronisée les dynamiques visuelles et sonores, améliorant ainsi significativement la navigation des agents.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin Mao2026-03-11💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

Ce papier propose AVGGT, une méthode d'accélération sans réentraînement pour les modèles VGGT et $\pi^3$ qui, en s'appuyant sur une analyse des rôles de l'attention globale, remplace les premières couches par une attention par image et subsample les suivantes, permettant ainsi des gains de vitesse allant jusqu'à 10 fois sur des séquences longues tout en préservant la précision.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu Zhang2026-03-11💻 cs

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

Ce papier présente LiM-YOLO, un détecteur optimisé pour la détection de navires dans les images satellitaires qui améliore la précision et l'efficacité en déplaçant la pyramide de caractéristiques vers des niveaux plus fins (P2-P4) et en intégrant une normalisation par groupes pour surmonter les défis liés aux petites cibles et aux contraintes de mémoire.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin Kim2026-03-11⚡ eess

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

Le papier présente ADHint, une méthode d'apprentissage par renforcement qui intègre dynamiquement des indices adaptatifs pondérés par la difficulté des échantillons et des rollouts pour améliorer l'efficacité de l'échantillonnage, stabiliser l'apprentissage et renforcer les capacités de raisonnement et de généralisation des modèles.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang Yang2026-03-11🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

Ce papier propose la Directional Textual Inversion (DTI), une méthode qui améliore la fidélité des prompts et permet des interpolations sémantiques fluides en optimisant uniquement la direction des embeddings sur une hypersphère pour éviter l'inflation de norme qui nuit aux modèles de génération d'images personnalisés.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung Shim2026-03-11🤖 cs.LG

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Ce papier propose D²-Align, un cadre novateur qui atténue l'effondrement du mode de préférence dans l'apprentissage par renforcement des modèles de diffusion en corrigeant directionnellement le signal de récompense pour préserver la diversité générative tout en améliorant l'alignement avec les préférences humaines.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li2026-03-11💻 cs

Low-rank Orthogonal Subspace Intervention for Generalizable Face Forgery Detection

Cet article propose SeLop, une méthode d'intervention dans un sous-espace orthogonal de rang faible qui, en éliminant les biais de corrélation fallacieux du modèle CLIP, améliore considérablement la généralisation et la robustesse de la détection de falsifications faciales avec un nombre minimal de paramètres.

Chi Wang, Xinjue Hu, Boyu Wang, Ziwen He, Zhangjie Fu2026-03-11💻 cs

← Précédent Suivant →