TrajPred: Trajectory-Conditioned Joint Embedding Prediction for Surgical Instrument-Tissue Interaction Recognition in Vision-Language Models

Ce papier présente TrajPred, un cadre innovant pour les modèles vision-langage qui améliore la reconnaissance des interactions instrument-tissu en chirurgie robotique en intégrant des trajectoires d'instruments et un module de prédiction pour capturer des détails d'action fins, démontrant ainsi des performances supérieures sur le benchmark CholecT50.

Jiajun Cheng, Xiaofan Yu, Subarna, Sainan Liu, Shan Lin2026-03-10💻 cs

OV-DEIM: Real-time DETR-Style Open-Vocabulary Object Detection with GridSynthetic Augmentation

Ce papier présente OV-DEIM, un détecteur open-vocabulary de style DETR en temps réel qui intègre l'augmentation de données GridSynthetic et une stratégie de complément de requêtes pour surpasser les méthodes existantes en efficacité et en précision, notamment pour les catégories rares.

Leilei Wang, Longfei Liu, Xi Shen, Xuanlong Yu, Ying Tiffany He, Fei Richard Yu, Yingyi Chen2026-03-10💻 cs

Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Ce papier présente TFM, une méthode de contournement des filtres de sécurité des modèles texte-vidéo qui exploite une vulnérabilité temporelle en transformant des requêtes dangereuses en prompts fragmentés spécifiant uniquement des images de début et de fin, forçant ainsi le modèle à générer autonomément des contenus préjudiciables dans les cadres intermédiaires.

Moyang Chen, Zonghao Ying, Wenzhuo Xu, Quancheng Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang2026-03-10💻 cs

SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer

Le papier présente SODA, une méthode d'accélération dynamique et adaptative pour les Diffusion Transformers qui optimise la mise en cache et l'élagage en se basant sur une modélisation fine de la sensibilité, permettant ainsi d'atteindre une fidélité de génération supérieure aux méthodes existantes tout en réduisant les coûts d'inférence.

Tong Shao, Yusen Fu, Guoying Sun, Jingde Kong, Zhuotao Tian, Jingyong Su2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

Le papier présente MedSteer, un cadre d'entraînement gratuit utilisant le guidage d'activation pour synthétiser des images endoscopiques contrefactuelles qui modifient uniquement un concept clinique tout en préservant la structure anatomique, surpassant ainsi les méthodes existantes en génération et en amélioration de la détection de polypes.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding

Ce papier présente VirtueBench, un nouveau benchmark conçu pour évaluer la fiabilité des modèles vision-langage dans la compréhension de vidéos longues en mesurant leur capacité à reconnaître et à refuser de répondre face à l'incertitude, révélant ainsi que la plupart des modèles actuels privilégient l'essai hasardeux plutôt que l'honnêteté.

Xueqing Yu, Bohan Li, Yan Li, Zhenheng Yang2026-03-10💻 cs

Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

Cette étude propose le PSG-UIENet, un réseau d'amélioration d'images sous-marines qui combine la correction d'éclairage fondée sur la physique de Retinex avec des guidages sémantiques dérivés du langage via le modèle CLIP, tout en introduisant un nouveau jeu de données multimodal et une fonction de perte pour optimiser la cohérence sémantique.

Shixuan Xu, Yabo Liu, Junyu Dong, Xinghui Dong2026-03-10💻 cs

Aligning What EEG Can See: Structural Representations for Brain-Vision Matching

Cet article propose une nouvelle méthode de décodage visuel à partir de l'EEG, basée sur la sélection de couches visibles et une fusion hiérarchique complémentaire, qui aligne les signaux cérébraux sur des représentations intermédiaires plutôt que sur des embeddings sémantiques abstraits, atteignant ainsi des performances de pointe avec une précision de 84,6 % sur le jeu de données THINGS-EEG.

Jingyi Tang, Shuai Jiang, Fei Su, Zhicheng Zhao2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

Le papier NuNext reformule la détection de noyaux en histopathologie comme une prédiction de point suivant en utilisant un modèle de langage multimodal entraîné en deux étapes avec une supervision douce spatiale et un affinage par renforcement pour surpasser les méthodes existantes sur neuf benchmarks.

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

Ce papier présente le S-PCL, un cadre d'apprentissage prédictif auto-supervisé efficace pour les radiographies thoraciques qui, en partitionnant aléatoirement les patchs d'une image en deux sous-ensembles sémantiques complémentaires, élimine le besoin d'augmentations complexes et de décodeurs auxiliaires tout en surpassant les méthodes existantes en termes de précision et d'efficacité computationnelle.

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

Inter-Image Pixel Shuffling for Multi-focus Image Fusion

Cet article présente l'Inter-image Pixel Shuffling (IPS), une méthode novatrice qui permet d'entraîner des réseaux de neurones pour la fusion d'images multi-focales sans données réelles en reformulant la tâche comme un problème de classification de pixels et en combinant des réseaux de neurones convolutifs avec des modèles d'espace d'état pour générer des images nettes de haute qualité.

Huangxing Lin, Rongrong Ma, Cheng Wang2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

Ce papier présente EyExIn, un cadre innovant qui ancre les modèles de vision-langage rétiniens dans des connaissances médicales expertes via une injection profonde et une fusion adaptative, comblant ainsi les lacunes de perception et de raisonnement pour atteindre une précision supérieure aux systèmes propriétaires dans le diagnostic ophtalmologique.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

Ce papier présente AutoSelect, une méthode d'élagage automatique des tokens visuels dans les modèles vision-langage qui, en reformulant le problème comme une communication à capacité contrainte via un mécanisme de porte de bruit et un débruiteur, permet de réduire considérablement les coûts d'inférence tout en préservant la précision du modèle sans nécessiter d'objectifs d'entraînement supplémentaires.

Landi He, Xiaoyu Yang, Lijian Xu2026-03-10💻 cs