cs.CV articles | Gist.Science

AdaGen: Learning Adaptive Policy for Image Synthesis

Le papier présente AdaGen, un cadre général et adaptatif qui utilise l'apprentissage par renforcement avec une récompense adversariale pour optimiser dynamiquement le processus de génération d'images, surpassant ainsi les méthodes statiques existantes en termes de qualité, de diversité et d'efficacité computationnelle.

Zanlin Ni, Yulin Wang, Yeguo Hua, Renping Zhou, Jiayi Guo, Jun Song, Bo Zheng, Gao Huang2026-03-10💻 cs

TrajPred: Trajectory-Conditioned Joint Embedding Prediction for Surgical Instrument-Tissue Interaction Recognition in Vision-Language Models

Ce papier présente TrajPred, un cadre innovant pour les modèles vision-langage qui améliore la reconnaissance des interactions instrument-tissu en chirurgie robotique en intégrant des trajectoires d'instruments et un module de prédiction pour capturer des détails d'action fins, démontrant ainsi des performances supérieures sur le benchmark CholecT50.

Jiajun Cheng, Xiaofan Yu, Subarna, Sainan Liu, Shan Lin2026-03-10💻 cs

OV-DEIM: Real-time DETR-Style Open-Vocabulary Object Detection with GridSynthetic Augmentation

Ce papier présente OV-DEIM, un détecteur open-vocabulary de style DETR en temps réel qui intègre l'augmentation de données GridSynthetic et une stratégie de complément de requêtes pour surpasser les méthodes existantes en efficacité et en précision, notamment pour les catégories rares.

Leilei Wang, Longfei Liu, Xi Shen, Xuanlong Yu, Ying Tiffany He, Fei Richard Yu, Yingyi Chen2026-03-10💻 cs

Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Ce papier présente TFM, une méthode de contournement des filtres de sécurité des modèles texte-vidéo qui exploite une vulnérabilité temporelle en transformant des requêtes dangereuses en prompts fragmentés spécifiant uniquement des images de début et de fin, forçant ainsi le modèle à générer autonomément des contenus préjudiciables dans les cadres intermédiaires.

Moyang Chen, Zonghao Ying, Wenzhuo Xu, Quancheng Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang2026-03-10💻 cs

Fine-Grained 3D Facial Reconstruction for Micro-Expressions

Cet article propose une méthode de reconstruction faciale 3D fine et granulaire pour les micro-expressions, qui surpasse les méthodes actuelles en intégrant des caractéristiques dynamiques globales et des indices locaux enrichis pour surmonter les défis liés à la subtilité et à la rareté de ces données.

Che Sun, Xinjie Zhang, Rui Gao, Xu Chen, Yuwei Wu, Yunde Jia2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

Ce papier présente CAPL, un cadre structuré qui atténue les hallucinations des modèles vision-langage sur des tâches multi-images en calibrant l'attention inter-images et en apprenant des préférences pour ancrer les prédictions dans des preuves visuelles authentiques.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer

Le papier présente SODA, une méthode d'accélération dynamique et adaptative pour les Diffusion Transformers qui optimise la mise en cache et l'élagage en se basant sur une modélisation fine de la sensibilité, permettant ainsi d'atteindre une fidélité de génération supérieure aux méthodes existantes tout en réduisant les coûts d'inférence.

Tong Shao, Yusen Fu, Guoying Sun, Jingde Kong, Zhuotao Tian, Jingyong Su2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

Le papier présente MedSteer, un cadre d'entraînement gratuit utilisant le guidage d'activation pour synthétiser des images endoscopiques contrefactuelles qui modifient uniquement un concept clinique tout en préservant la structure anatomique, surpassant ainsi les méthodes existantes en génération et en amélioration de la détection de polypes.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding

Ce papier présente VirtueBench, un nouveau benchmark conçu pour évaluer la fiabilité des modèles vision-langage dans la compréhension de vidéos longues en mesurant leur capacité à reconnaître et à refuser de répondre face à l'incertitude, révélant ainsi que la plupart des modèles actuels privilégient l'essai hasardeux plutôt que l'honnêteté.

Xueqing Yu, Bohan Li, Yan Li, Zhenheng Yang2026-03-10💻 cs

Physics-Guided VLM Priors for All-Cloud Removal

L'article propose PhyVLM-CR, une méthode unifiée de suppression de nuages qui intègre les capacités sémantiques d'un modèle vision-langage dans un modèle de restauration physique pour traiter simultanément les nuages fins et épais sans nécessiter de délimitation explicite, garantissant ainsi une fidélité radiométrique élevée et l'absence d'hallucinations.

Liying Xu, Huifang Li, Huanfeng Shen2026-03-10💻 cs

Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

Cette étude propose le PSG-UIENet, un réseau d'amélioration d'images sous-marines qui combine la correction d'éclairage fondée sur la physique de Retinex avec des guidages sémantiques dérivés du langage via le modèle CLIP, tout en introduisant un nouveau jeu de données multimodal et une fonction de perte pour optimiser la cohérence sémantique.

Shixuan Xu, Yabo Liu, Junyu Dong, Xinghui Dong2026-03-10💻 cs

Aligning What EEG Can See: Structural Representations for Brain-Vision Matching

Cet article propose une nouvelle méthode de décodage visuel à partir de l'EEG, basée sur la sélection de couches visibles et une fusion hiérarchique complémentaire, qui aligne les signaux cérébraux sur des représentations intermédiaires plutôt que sur des embeddings sémantiques abstraits, atteignant ainsi des performances de pointe avec une précision de 84,6 % sur le jeu de données THINGS-EEG.

Jingyi Tang, Shuai Jiang, Fei Su, Zhicheng Zhao2026-03-10💻 cs

mAVE: A Watermark for Joint Audio-Visual Generation Models

Le papier présente mAVE, un cadre de filigrane natif pour les modèles de génération audio-visuelle conjointe qui cryptographiquement lie les latences audio et vidéo pour éliminer la vulnérabilité aux attaques par échange et garantir l'intégrité de la provenance du contenu.

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

Cet article propose une méthode de génération d'expressions faciales pour les interactions dyadiques naturelles, alignée sur les préférences humaines grâce à une boucle de rétroaction fermée intégrant un apprentissage par renforcement guidé par des critiques et un modèle vision-langage-action.

Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

Le papier NuNext reformule la détection de noyaux en histopathologie comme une prédiction de point suivant en utilisant un modèle de langage multimodal entraîné en deux étapes avec une supervision douce spatiale et un affinage par renforcement pour surpasser les méthodes existantes sur neuf benchmarks.

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

Ce papier présente le S-PCL, un cadre d'apprentissage prédictif auto-supervisé efficace pour les radiographies thoraciques qui, en partitionnant aléatoirement les patchs d'une image en deux sous-ensembles sémantiques complémentaires, élimine le besoin d'augmentations complexes et de décodeurs auxiliaires tout en surpassant les méthodes existantes en termes de précision et d'efficacité computationnelle.

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

TIQA: Human-Aligned Text Quality Assessment in Generated Images

Ce papier présente TIQA, une nouvelle tâche d'évaluation de la qualité du texte dans les images générées, accompagnée de jeux de données annotés et d'une méthode légère nommée ANTIQA qui surpasse les approches existantes pour prédire les jugements humains et améliorer la qualité textuelle des modèles de génération d'images.

Kirill Koltsov, Aleksandr Gushchin, Dmitriy Vatolin, Anastasia Antsiferova2026-03-10💻 cs

Inter-Image Pixel Shuffling for Multi-focus Image Fusion

Cet article présente l'Inter-image Pixel Shuffling (IPS), une méthode novatrice qui permet d'entraîner des réseaux de neurones pour la fusion d'images multi-focales sans données réelles en reformulant la tâche comme un problème de classification de pixels et en combinant des réseaux de neurones convolutifs avec des modèles d'espace d'état pour générer des images nettes de haute qualité.

Huangxing Lin, Rongrong Ma, Cheng Wang2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

Ce papier présente EyExIn, un cadre innovant qui ancre les modèles de vision-langage rétiniens dans des connaissances médicales expertes via une injection profonde et une fusion adaptative, comblant ainsi les lacunes de perception et de raisonnement pour atteindre une précision supérieure aux systèmes propriétaires dans le diagnostic ophtalmologique.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

Ce papier présente AutoSelect, une méthode d'élagage automatique des tokens visuels dans les modèles vision-langage qui, en reformulant le problème comme une communication à capacité contrainte via un mécanisme de porte de bruit et un débruiteur, permet de réduire considérablement les coûts d'inférence tout en préservant la précision du modèle sans nécessiter d'objectifs d'entraînement supplémentaires.

Landi He, Xiaoyu Yang, Lijian Xu2026-03-10💻 cs

← Précédent Suivant →