cs.CV articles | Gist.Science

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Ce papier présente LAP, un modèle de planification de procédures qui surpasse les méthodes existantes en exploitant la richesse des descriptions textuelles issues d'un modèle vision-langage pour générer des séquences d'actions plus précises dans les vidéos d'instruction.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

LogoDiffuser est une méthode sans entraînement qui génère et stylise des logos multilingues en injectant des cartes d'attention issues d'images de caractères cibles dans un transformateur de diffusion multimodal, garantissant ainsi le contrôle de la structure des lettres sans déformation.

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

Ce papier présente PanoAffordanceNet, un cadre novateur et un nouveau jeu de données 360-AGD conçus pour résoudre les défis de l'ancrage holistique des affordances dans les environnements intérieurs panoramiques en surmontant les distorsions géométriques et la dispersion sémantique grâce à des mécanismes de calibration et de densification spécifiques.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang2026-03-11⚡ eess

Ego: Embedding-Guided Personalization of Vision-Language Models

Ce papier propose une méthode efficace de personnalisation des modèles vision-langage qui exploite les mécanismes d'attention internes pour extraire des tokens visuels mémorisant des concepts spécifiques, permettant ainsi une adaptation performante sans étapes d'entraînement supplémentaires.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Ce papier démontre que les défenses actuelles contre les portes dérobées sont incomplètes car elles se concentrent uniquement sur la suppression des déclencheurs d'entraînement, alors que des déclencheurs alternatifs peuvent exploiter des directions de porte dérobée latentes dans l'espace des caractéristiques pour activer la backdoor.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

What is Missing? Explaining Neurons Activated by Absent Concepts

Cet article met en évidence l'omission fréquente des concepts absents dans les méthodes d'IA explicable (XAI) et propose des extensions simples aux techniques d'attribution et de visualisation pour révéler ces absences codées, améliorant ainsi l'interprétabilité et le débiaisage des modèles.

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth2026-03-11🤖 cs.LG

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Cet article présente la première exploration de l'adaptation test-temps pour l'anticipation d'actions entre les vues égocentrique et exocentrique, en proposant un réseau innovant (DCPGN) qui utilise une croissance de prototypes multi-étiquettes et une cohérence de double indice visuel-textuel pour surmonter les écarts spatio-temporels sans nécessiter de données cibles supplémentaires.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

Ce papier présente RA-SSU, une nouvelle tâche d'apprentissage audio-visuel à granularité fine, accompagnée de deux nouveaux jeux de données annotés (f-Music et f-Lifescene) et d'un modèle de référence nommé SSUFormer, conçu pour réaliser une segmentation précise des sources sonores et générer des descriptions textuelles détaillées au niveau de chaque image.

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

ConfCtrl est un cadre d'interpolation vidéo basé sur l'attention à la confiance qui permet aux modèles de diffusion de générer des vues nouvelles géométriquement cohérentes et plausibles à partir de deux images, en combinant des nuages de points projetés avec des corrections résiduelles pour suivre précisément les trajectoires de caméra tout en reconstruisant les régions non vues.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

Le papier présente BrainSTR, un cadre d'apprentissage contrastif spatio-temporel conçu pour modéliser les réseaux cérébraux dynamiques de manière interprétable en identifiant des phases critiques et des sous-réseaux pertinents pour le diagnostic de troubles neuropsychiatriques tels que l'autisme, le trouble bipolaire et la dépression.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

Ce papier présente VLM-Loc, un cadre innovant qui exploite le raisonnement spatial des modèles vision-langage pour la localisation texte-nuage de points, en transformant les nuages en images et graphes de scène pour une meilleure précision, et introduit le benchmark CityLoc pour évaluer cette approche.

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun Liu2026-03-11💻 cs

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Cet article présente MA-EgoQA, un nouveau benchmark et une tâche de question-réponse conçus pour évaluer la capacité des modèles à comprendre et à agréger des flux vidéo égocentriques provenant de multiples agents incarnés, révélant ainsi les limites actuelles des approches dans ce domaine.

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang2026-03-11🤖 cs.AI

CycleULM: A unified label-free deep learning framework for ultrasound localisation microscopy

CycleULM est un cadre d'apprentissage profond unifié et sans étiquettes qui surpasse les méthodes existantes en améliorant la résolution et la précision de la localisation des microbulles pour la microscopie de localisation par ultrasons, tout en permettant un traitement en temps réel sans nécessiter de données d'entraînement annotées.

Su Yan, Clara Rodrigo Gonzalez, Vincent C. H. Leung, Herman Verinaz-Jadan, Jiakang Chen, Matthieu Toulemonde, Kai Riemer, Jipeng Yan, Clotilde Vié, Qingyuan Tan, Peter D. Weinberg, Pier Luigi Dragotti, Kevin G. Murphy, Meng-Xing Tang2026-03-11⚡ eess

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

Le papier présente MissBench, un nouveau cadre et benchmark pour l'analyse affective multimodale qui standardise les protocoles de données manquantes déséquilibrées et introduit deux métriques diagnostiques (MEI et MLI) pour révéler les inégalités modales et les déséquilibres d'optimisation souvent masqués par les évaluations traditionnelles.

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Ce rapport présente InternVL-U, un modèle multimodal unifié léger de 4 milliards de paramètres qui démocratise les capacités de compréhension, de raisonnement, de génération et d'édition en surpassant des modèles plus volumineux grâce à une architecture modulaire et un pipeline de données axé sur le raisonnement.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Le papier présente DISPLAY, un cadre de génération vidéo d'interactions humain-objet qui utilise une guidance de mouvement épars (coordonnées du poignet et boîte englobante) et une attention focalisée sur l'objet pour produire des vidéos réalistes et contrôlables sans dépendre de signaux de contrôle denses ou de vidéos modèles.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Cet article présente CourtSI, le premier jeu de données à grande échelle et le benchmark CourtSI-Bench dédiés à l'évaluation et à l'amélioration de l'intelligence spatiale des modèles vision-langage dans les sports de raquette, démontrant ainsi leur potentiel pour combler l'écart de performance entre l'IA et l'humain dans des scénarios dynamiques complexes.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

Le papier présente WikiCLIP, un cadre efficace et performant pour la reconnaissance d'entités visuelles en domaine ouvert qui, en exploitant des embeddings de modèles de langage et un adaptateur guidé par la vision, surpasse les méthodes génératives existantes tout en réduisant considérablement la latence d'inférence.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

Cet article démontre que l'optimisation directe de la distance de Chamfer conduit inévitablement à un effondrement structurel dû à l'absence de couplage non local, et propose que l'introduction de contraintes de couplage global, telles qu'un prior MPM différentiable, est la condition nécessaire pour supprimer ce phénomène et améliorer la reconstruction de formes 3D.

Chang-Yong Song, David Hyde2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Cet article propose une méthode de récupération de mouvement textuel interprétable qui utilise une représentation d'images de mouvements basée sur les angles articulaires et une interaction tardive token-patch pour surpasser les approches existantes en préservant les correspondances locales fines.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

← Précédent Suivant →