cs.CV articles | Gist.Science

EVA: Efficient Reinforcement Learning for End-to-End Video Agent

Le papier présente EVA, un cadre d'apprentissage par renforcement efficace qui permet à un agent vidéo de planifier avant de percevoir grâce à un raisonnement itératif et à un pipeline d'entraînement en trois étapes, surpassant ainsi les méthodes existantes sur plusieurs benchmarks de compréhension vidéo.

Yaolun Zhang, Ruohui Wang, Jiahao Wang, Yepeng Tang, Xuanyu Zheng, Haonan Duan, Hao Lu, Hanming Deng, Lewei Lu2026-03-25💬 cs.CL

FixationFormer: Direct Utilization of Expert Gaze Trajectories for Chest X-Ray Classification

Le papier présente FixationFormer, une architecture basée sur les transformers qui intègre directement les trajectoires de regard d'experts sous forme de séquences de tokens pour améliorer la classification des radiographies thoraciques en préservant leur structure temporelle et spatiale.

Daniel Beckmann, Benjamin Risse2026-03-25🤖 cs.LG

Caption Generation for Dongba Paintings via Prompt Learning and Semantic Fusion

Cet article présente PVGF-DPC, un cadre d'apprentissage par prompt et de fusion sémantique visuelle conçu pour générer automatiquement des légendes culturellement précises pour les peintures Dongba en surmontant les défis liés au décalage de domaine grâce à un module de prompt de contenu et une nouvelle fonction de perte de fusion.

Shuangwu Qian, Xiaochan Yuan, Pengfei Liu2026-03-25💻 cs

Cluster-Wise Spatio-Temporal Masking for Efficient Video-Language Pretraining

Ce papier présente ClusterSTM, une stratégie de masquage spatio-temporel par clusters qui améliore l'efficacité et les performances du pré-entraînement vidéo-langage en préservant le contenu global et les corrélations temporelles tout en réduisant les coûts computationnels.

Weijun Zhuang, Yuqing Huang, Weikang Meng, Xin Li, Ming Liu, Xiaopeng Hong, Yaowei Wang, Wangmeng Zuo2026-03-25💻 cs

Few-Shot Generative Model Adaption via Identity Injection and Preservation

Ce papier propose I²P, une méthode d'adaptation de modèles génératifs à peu d'exemples qui préserve les connaissances d'identité de la source grâce à l'injection d'identité et à l'alignement de la consistance, surmontant ainsi les problèmes de mode collapse et d'oubli de l'identité dans les approches existantes.

Yeqi He, Liang Li, Jiehua Zhang, Yaoqi Sun, Xichun Sheng, Zhidong Zhao, Chenggang Yan2026-03-25💻 cs

FCL-COD: Weakly Supervised Camouflaged Object Detection with Frequency-aware and Contrastive Learning

Ce papier propose FCL-COD, un cadre d'apprentissage faible supervision pour la détection d'objets camouflés qui intègre l'adaptation faible rang sensible aux fréquences et un apprentissage contrastif pour surmonter les limitations des méthodes existantes et surpasser les performances des techniques entièrement supervisées.

Jingchen Ni, Quan Zhang, Dan Jiang, Keyu Lv, Ke Zhang, Chun Yuan2026-03-25💻 cs

WorldMesh: Generating Navigable Multi-Room 3D Scenes via Mesh-Conditioned Image Diffusion

Le papier présente WorldMesh, une approche géométrie-dépendante qui génère des scènes 3D navigables et à grande échelle en décomposant le processus en la construction d'un squelette maillé structurel et la synthèse d'apparences réalistes conditionnées par ce maillage pour assurer une cohérence spatiale et une richesse d'objets inégalées.

Manuel-Andreas Schneider, Angela Dai2026-03-25💻 cs

VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models

Le papier présente VLA-IAP, une méthode sans entraînement qui optimise l'inférence des modèles Vision-Language-Action en élaguant les tokens visuels selon un paradigme axé sur l'interaction, garantissant ainsi une accélération significative sans compromettre la précision ni la robustesse des tâches robotiques.

Jintao Cheng, Haozhe Wang, Weibin Li, Gang Wang, Yipu Zhang, Xiaoyu Tang, Jin Wu, Xieyuanli Chen, Yunhui Liu, Wei Zhang2026-03-25💻 cs

VQ-Jarvis: Retrieval-Augmented Video Restoration Agent with Sharp Vision and Fast Thought

Le papier présente VQ-Jarvis, un agent intelligent de restauration vidéo qui combine une perception fine des dégradations, grâce au nouveau jeu de données VSR-Compare, et une stratégie de décision hiérarchique rapide pour surmonter les limitations des méthodes existantes face à des dégradations hétérogènes complexes.

Xuanyu Zhang, Weiqi Li, Qunliang Xing, Jingfen Xie, Bin Chen, Junlin Li, Li Zhang, Jian Zhang, Shijie Zhao2026-03-25💻 cs

Zero-Shot Personalization of Objects via Textual Inversion

Ce papier propose un cadre novateur permettant la personnalisation zéro-shot d'objets divers dans les modèles de diffusion text-to-image en prédisant des embeddings d'inversion textuelle spécifiques via un réseau appris, offrant ainsi une solution rapide, évolutive et sans entraînement préalable pour la génération d'images personnalisées.

Aniket Roy, Maitreya Suin, Rama Chellappa2026-03-25💻 cs

← Précédent Suivant →