SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

Ce papier propose SPAN, une nouvelle méthode d'alignement spatial et de projection qui améliore la détection d'objets 3D monoculaire en imposant des contraintes géométriques globales et une cohérence entre les boîtes 3D et 2D, tout en utilisant une stratégie d'apprentissage hiérarchique pour assurer la stabilité de l'entraînement.

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming YangWed, 11 Ma💻 cs

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

Cet article propose le module Adaptive Diversity Cache (ADC), une méthode sans entraînement et plug-and-play qui atténue le biais à longue traîne dans la détection d'interactions humain-objet en accumulant des représentations de caractéristiques diversifiées et en allouant dynamiquement la capacité des caches pour améliorer la détection des catégories rares.

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong LiWed, 11 Ma🤖 cs.AI

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

Le papier propose V-Attack, une nouvelle méthode d'attaque adversariale pour les grands modèles vision-langage qui cible les caractéristiques de valeur (V) désengagées plutôt que les patchs entremêlés, permettant ainsi un contrôle sémantique local précis et une amélioration significative du taux de réussite des attaques.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin ChenWed, 11 Ma💻 cs

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

Ce papier présente UPA-RFAS, un cadre unifié qui génère des patches adversariaux universels et transférables capables de compromettre divers modèles Vision-Language-Action (VLA) dans des scénarios boîte noire et des transitions simulation-réalité en exploitant des mécanismes spécifiques aux caractéristiques, à l'attention et à la sémantique.

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong JiangWed, 11 Ma🤖 cs.AI

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

Le papier présente AFRO, un cadre d'apprentissage auto-supervisé qui génère des représentations 3D dynamiques pour la robotique en modélisant les transitions d'état via un processus de diffusion, éliminant ainsi le besoin de reconstruction géométrique explicite et améliorant significativement les taux de réussite dans des tâches de manipulation réelles et simulées.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing XuWed, 11 Ma💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

Ce papier propose AVGGT, une méthode d'accélération sans réentraînement pour les modèles VGGT et π3\pi^3 qui, en s'appuyant sur une analyse des rôles de l'attention globale, remplace les premières couches par une attention par image et subsample les suivantes, permettant ainsi des gains de vitesse allant jusqu'à 10 fois sur des séquences longues tout en préservant la précision.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu ZhangWed, 11 Ma💻 cs

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

Ce papier présente LiM-YOLO, un détecteur optimisé pour la détection de navires dans les images satellitaires qui améliore la précision et l'efficacité en déplaçant la pyramide de caractéristiques vers des niveaux plus fins (P2-P4) et en intégrant une normalisation par groupes pour surmonter les défis liés aux petites cibles et aux contraintes de mémoire.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin KimWed, 11 Ma⚡ eess

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

Le papier présente ADHint, une méthode d'apprentissage par renforcement qui intègre dynamiquement des indices adaptatifs pondérés par la difficulté des échantillons et des rollouts pour améliorer l'efficacité de l'échantillonnage, stabiliser l'apprentissage et renforcer les capacités de raisonnement et de généralisation des modèles.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang YangWed, 11 Ma🤖 cs.LG

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Ce papier propose D²-Align, un cadre novateur qui atténue l'effondrement du mode de préférence dans l'apprentissage par renforcement des modèles de diffusion en corrigeant directionnellement le signal de récompense pour préserver la diversité générative tout en améliorant l'alignement avec les préférences humaines.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu LiWed, 11 Ma💻 cs

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

L'article présente CLEAR-Mamba, un cadre amélioré basé sur MedMamba intégrant une couche d'adaptation hyper-réseau (HaC) et un schéma de prédiction fiable (RaP) pour surmonter les limites de généralisation et de confiance dans la classification des angiographies oculaires multi-séquences FFA et ICGA, démontrant ainsi des performances supérieures sur un nouveau jeu de données à grande échelle.

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin OoiWed, 11 Ma🤖 cs.AI

Pathwise Test-Time Correction for Autoregressive Long Video Generation

Ce papier présente la Correction en Temps d'Exécution (TTC), une méthode sans entraînement qui utilise la première image comme ancre stable pour corriger les états intermédiaires et permettre la génération de vidéos longues de haute qualité avec des modèles autorégressifs distillés, surmontant ainsi les limitations des méthodes d'optimisation existantes.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao GuoWed, 11 Ma💻 cs

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Cet article propose un cadre d'apprentissage continu pour les réseaux de neurones à impulsions (SNN) en vision neuromorphique, qui intègre une gestion adaptative du budget de spikes pour optimiser simultanément la précision et l'efficacité énergétique tout en atténuant l'oubli catastrophique sur des données événementielles et basées sur des images.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed MiaWed, 11 Ma🤖 cs.AI