cs.CV articles | Gist.Science

Designing to Forget: Deep Semi-parametric Models for Unlearning

Cet article présente une famille de modèles semi-paramétriques profonds qui permettent un apprentissage machine « oubliable » en supprimant explicitement des échantillons d'entraînement lors du test sans modifier les paramètres du modèle, offrant ainsi des performances compétitives et une efficacité d'effacement bien supérieure aux approches paramétriques existantes.

Amber Yijia Zheng, Yu-Shan Tai, Raymond A. Yeh2026-03-25💻 cs

ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance

Ce papier présente ForeSea, un système de recherche forensique vidéo basé sur une architecture en trois étapes et un nouveau benchmark nommé ForeSeaQA, conçus pour améliorer la précision de la recherche de cibles spécifiques et le raisonnement temporel au sein de longues séquences de vidéosurveillance via des requêtes multimodales (image et texte).

Hyojin Park, Yi Li, Janghoon Cho, Sungha Choi, Jungsoo Lee, Taotao Jing, Shuai Zhang, Munawar Hayat, Dashan Gao, Ning Bi, Fatih Porikli2026-03-25💻 cs

Template-Based Feature Aggregation Network for Industrial Anomaly Detection

Ce papier présente TFA-Net, un réseau de nouvelle génération pour la détection d'anomalies industrielles qui améliore la reconstruction des caractéristiques en les agrégeant sur un modèle normal, surmontant ainsi les limites des méthodes existantes tout en garantissant des performances en temps réel.

Wei Luo, Haiming Yao, Wenyong Yu2026-03-25💻 cs

TreeTeaming: Autonomous Red-Teaming of Vision-Language Models via Hierarchical Strategy Exploration

Le papier présente TreeTeaming, un cadre de test d'intrusion autonome qui utilise une exploration stratégique hiérarchique dynamique pour découvrir des vulnérabilités inédites dans les modèles vision-langage, surpassant les méthodes existantes en termes de taux de réussite et de diversité des attaques.

Chunxiao Li, Lijun Li, Jing Shao2026-03-25🤖 cs.LG

Group Editing : Edit Multiple Images in One Go

Ce papier présente GroupEditing, un cadre novateur qui assure des modifications cohérentes sur plusieurs images en fusionnant des correspondances géométriques explicites et des relations temporelles implicites, soutenu par un nouveau jeu de données et une méthode de préservation de l'identité.

Yue Ma, Xinyu Wang, Qianli Ma, Qinghe Wang, Mingzhe Zheng, Xiangpeng Yang, Hao Li, Chongbo Zhao, Jixuan Ying, Harry Yang, Hongyu Liu, Qifeng Chen2026-03-25💻 cs

SLARM: Streaming and Language-Aligned Reconstruction Model for Dynamic Scenes

Le modèle SLARM propose une architecture unifiée et en flux pour la reconstruction de scènes dynamiques, qui intègre une modélisation du mouvement d'ordre supérieur et des représentations alignées sur le langage pour obtenir des performances de pointe en estimation, rendu et segmentation sans supervision de flux ni accumulation de mémoire.

Zhicheng Qiu, Jiarui Meng, Tong-an Luo, Yican Huang, Xuan Feng, Xuanfu Li, ZHan Xu2026-03-25💻 cs

Dual-Teacher Distillation with Subnetwork Rectification for Black-Box Domain Adaptation

Cet article propose le modèle DDSR, qui améliore l'adaptation de domaine en boîte noire en combinant la distillation d'enseignes duales et la rectification de sous-réseaux pour exploiter conjointement les prédictions d'un modèle source inaccessible et les priors sémantiques d'un modèle vision-langage, surmontant ainsi les limitations des méthodes existantes.

Zhe Zhang, Jing Li, Wanli Xue, Xu Cheng, Jianhua Zhang, Qinghua Hu, Shengyong Chen2026-03-25🤖 cs.LG

ForestPrune: High-ratio Visual Token Compression for Video Multimodal Large Language Models via Spatial-Temporal Forest Modeling

Le papier présente ForestPrune, une méthode d'élagage de tokens sans entraînement pour les modèles multimodaux vidéo, qui utilise une modélisation par forêt spatio-temporelle pour atteindre un taux de compression élevé tout en préservant la précision.

Shaobo Ju, Baiyang Song, Tao Chen, Jiapeng Zhang, Qiong Wu, Chao Chang, HuaiXi Wang, Yiyi Zhou, Rongrong Ji2026-03-25🤖 cs.AI

When AVSR Meets Video Conferencing: Dataset, Degradation, and the Hidden Mechanism Behind Performance Collapse

Cet article présente MLD-VC, le premier jeu de données multimodal conçu pour les conférences vidéo, et révèle que les algorithmes d'amélioration de la parole sont la principale cause de la dégradation des performances des systèmes de reconnaissance parole audio-visuelle dans ce contexte, une problématique résolue par un ajustement fin sur ce nouveau jeu de données.

Yihuan Huang, Jun Xue, Liu Jiajun, Daixian Li, Tong Zhang, Zhuolin Yi, Yanzhen Ren, Kai Li2026-03-25💻 cs

EVA: Efficient Reinforcement Learning for End-to-End Video Agent

Le papier présente EVA, un cadre d'apprentissage par renforcement efficace qui permet à un agent vidéo de planifier avant de percevoir grâce à un raisonnement itératif et à un pipeline d'entraînement en trois étapes, surpassant ainsi les méthodes existantes sur plusieurs benchmarks de compréhension vidéo.

Yaolun Zhang, Ruohui Wang, Jiahao Wang, Yepeng Tang, Xuanyu Zheng, Haonan Duan, Hao Lu, Hanming Deng, Lewei Lu2026-03-25💬 cs.CL

← Précédent Suivant →