cs.CV articles | Gist.Science

Training-Free Coverless Multi-Image Steganography with Access Control

Le papier présente MIDAS, un cadre de stéganographie sans entraînement basé sur la diffusion qui permet l'insertion de multiples images avec un contrôle d'accès spécifique à l'utilisateur via une fusion au niveau latent, surpassant les méthodes existantes en termes de qualité, de robustesse et de résistance à la stéganalyse.

Minyeol Bae, Si-Hyeon Lee2026-03-11💻 cs

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Ce rapport présente le défi ICDAR 2025 sur la traduction automatique de documents image, qui a réuni 69 équipes pour évaluer des systèmes end-to-end capables de gérer des mises en page complexes via deux pistes (avec et sans OCR) et deux catégories de modèles, démontrant ainsi le potentiel prometteur des approches à grande échelle pour ce domaine.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

YOLO-NAS-Bench: A Surrogate Benchmark with Self-Evolving Predictors for YOLO Architecture Search

Ce papier présente YOLO-NAS-Bench, le premier benchmark de substitution pour la recherche d'architecture neuronale des détecteurs YOLO, qui utilise un mécanisme d'auto-évolution pour affiner un prédicteur capable d'identifier des architectures surpassant les versions officielles de YOLOv8 à YOLO12.

Zhe Li, Xiaoyu Ding, Jiaxin Zheng, Yongtao Wang2026-03-11💻 cs

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Cet article présente le modèle de diffusion entièrement convolutif (FCDM), une architecture inspirée de ConvNeXt qui offre une alternative hautement efficace et compétitive aux modèles basés sur les Transformers, permettant un entraînement performant avec moins de ressources computationnelles et de matériel.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

Le papier présente RiO-DETR, le premier détecteur de type Transformer en temps réel pour la détection d'objets orientés, qui résout les défis spécifiques liés à l'orientation grâce à des innovations architecturales comme l'estimation d'angle pilotée par le contenu et un raffinement périodique découplé, établissant ainsi un nouveau compromis vitesse-précision sur plusieurs benchmarks.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan Sun2026-03-11💻 cs

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

Ce papier présente PromptDLA, un cadre d'analyse de mise en page de documents sensible au domaine qui intègre des connaissances descriptives via un générateur d'invocations personnalisé pour améliorer la généralisation et atteindre les performances les plus avancées sur plusieurs ensembles de données publics.

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

CIGPose: Causal Intervention Graph Neural Network for Whole-Body Pose Estimation

Le papier présente CIGPose, un cadre d'estimation de pose corporelle entière qui utilise l'intervention causale et les réseaux de neurones graphiques pour éliminer les corrélations spurious liées au contexte visuel et améliorer la robustesse des prédictions anatomiques.

Bohao Li, Zhicheng Cao, Huixian Li, Yangming Guo2026-03-11💻 cs

MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating

Le papier présente MetaDAT, une méthode de prédiction de trajectoire qui améliore la généralisation face aux changements de distribution en combinant un pré-entraînement par méta-apprentissage pour une adaptation rapide et un mécanisme de mise à jour du modèle à l'inférence qui s'adapte dynamiquement aux données et aux échantillons difficiles.

Yuning Wang, Pu Zhang, Yuan He, Ke Wang, Jianru Xue2026-03-11💻 cs

Open-World Motion Forecasting

Cet article propose un cadre de prévision de mouvement en monde ouvert qui, en s'appuyant sur une stratégie d'apprentissage incrémental de classe combinant étiquetage pseudo et échantillonnage de replay, permet aux véhicules autonomes d'anticiper les trajectoires d'objets directement à partir d'images tout en évitant l'oubli catastrophique et en s'adaptant continuellement à de nouvelles classes d'objets.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav Valada2026-03-11🤖 cs.AI

GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis

Ce papier présente GIIM, une nouvelle approche basée sur les graphes qui améliore le diagnostic médical multi-vues en modélisant simultanément les dépendances intra- et inter-vues tout en garantissant une robustesse face aux données manquantes.

Tran Bao Sam, Hung Vu, Dao Trung Kien, Tran Dat Dang, Van Ha Tang, Steven Truong2026-03-11💻 cs

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

Ce papier présente OncoAgent, un agent IA novateur capable de générer en zéro-shot et sans réentraînement des volumes cibles tridimensionnels pour la radiothérapie en convertissant directement des lignes directrices cliniques textuelles, surpassant ainsi les modèles supervisés traditionnels en termes de conformité aux protocoles et d'acceptabilité clinique.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung Kim2026-03-11🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

Le papier présente EvoDriveVLA, un cadre novateur de distillation collaborative perception-planification qui améliore les modèles Vision-Language-Action pour la conduite autonome en intégrant des contraintes perceptuelles auto-ancrées et une optimisation de trajectoire guidée par un oracle pour surmonter les problèmes de dégradation de la perception et d'instabilité à long terme.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang Zhang2026-03-11🤖 cs.AI

TopoOR: A Unified Topological Scene Representation for the Operating Room

Le papier présente TopoOR, une nouvelle représentation topologique unifiée qui modélise les salles d'opération chirurgicales comme des structures d'ordre supérieur pour préserver les relations complexes et multimodales, surpassant ainsi les méthodes existantes dans des tâches critiques comme la détection de brèches de stérilité et la prédiction des phases robotiques.

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart Bastian2026-03-11💻 cs

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Cet article présente le Corpus Patrologia Graeca, la première ressource ouverte à grande échelle d'OCR et d'annotations linguistiques pour les éditions grecques du XIXe siècle, obtenue grâce à un pipeline spécialisé qui atteint des taux d'erreur record sur cette typographie dégradée et fournit six millions de tokens annotés pour la recherche philologique et l'entraînement de modèles.

Chahan Vidal-Gorène (CJM, LIPN), Bastien Kindt2026-03-11💻 cs

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

Ce papier présente OmniEarth, un nouveau benchmark complet évaluant les modèles vision-langage dans des scénarios d'observation de la Terre à travers 28 tâches de perception, de raisonnement et de robustesse, révélant ainsi les lacunes actuelles des modèles existants face à la complexité géospatiale.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo Yang2026-03-11💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Le papier présente PruneSID, une méthode sans entraînement pour la compression de tokens visuels dans les modèles vision-langage qui, en combinant une analyse des composantes sémantiques principales et une suppression non maximale intra-groupe, atteint des performances de pointe tout en réduisant drastiquement le nombre de tokens et en accélérant le préremplissage.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Cet article propose un cadre novateur de génération d'images à partir de croquis, basé sur une architecture en deux étapes intégrant un autoencodeur à auto-attention et une fusion préservant les coordonnées, qui surpasse les modèles actuels en fidélité et en cohérence spatiale sur divers domaines.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

Ce papier propose la distillation diagonale, une méthode asymétrique qui optimise la génération de vidéos en flux continu via des modèles de diffusion en exploitant les dépendances temporelles et en alignant les prédictions de bruit pour réduire la latence tout en préservant la cohérence du mouvement.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu2026-03-11💻 cs

Evolving Prompt Adaptation for Vision-Language Models

L'article présente EvoPrompt, un cadre novateur qui assure une adaptation stable et sans oubli des modèles vision-langage pré-entraînés vers des tâches à peu d'exemples en guidant l'évolution des prompts via un projecteur partagé, une stratégie de mise à jour hiérarchique et une régularisation géométrique des caractéristiques.

Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang Li2026-03-11🤖 cs.AI

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Le papier propose SurgFed, un cadre d'apprentissage fédéré multi-tâches guidé par le langage qui améliore la segmentation et l'estimation de profondeur dans les vidéos chirurgicales en surmontant les défis de la diversité tissulaire et des tâches grâce à la sélection de canaux et à une agrégation hyper-personnalisée.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

← Précédent Suivant →