Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

L'article présente EPPINN, un cadre d'apprentissage profond probabilitaire intégrant des contraintes physiques pour estimer les paramètres de perfusion en imagerie TDM cérébrale avec quantification de l'incertitude, surpassant les méthodes existantes en précision et en fiabilité pour le diagnostic des AVC ischémiques.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung ChoiWed, 11 Ma💻 cs

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

Le papier propose M3GCLR, un cadre d'apprentissage contrastif basé sur la théorie des jeux qui résout les limites des méthodes existantes en modélisant les écarts de vue et les perturbations d'augmentation via un jeu mini-max infini, permettant ainsi d'atteindre des performances de pointe en reconnaissance d'actions squelettiques auto-supervisée.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui DaiWed, 11 Ma🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

Ce papier propose MIL-PF, un cadre d'apprentissage multiple-instance sur des caractéristiques précalculées qui combine des encodeurs fondationnels figés avec un module d'agrégation léger pour réaliser une classification mammographique performante et économe en calculs, tout en gérant efficacement les images haute résolution et le manque d'annotations.

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko CulibrkWed, 11 Ma🤖 cs.AI

EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

L'article présente EventVGGT, un cadre novateur qui améliore l'estimation de profondeur basée sur les événements en distillant des priors spatio-temporels et géométriques du modèle VGGT via une stratégie de distillation à trois niveaux, surmontant ainsi les limitations des méthodes précédentes qui négligent la continuité temporelle des données événementielles.

Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui XiongWed, 11 Ma💻 cs

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Ce rapport présente le défi ICDAR 2025 sur la traduction automatique de documents image, qui a réuni 69 équipes pour évaluer des systèmes end-to-end capables de gérer des mises en page complexes via deux pistes (avec et sans OCR) et deux catégories de modèles, démontrant ainsi le potentiel prometteur des approches à grande échelle pour ce domaine.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Cet article présente le modèle de diffusion entièrement convolutif (FCDM), une architecture inspirée de ConvNeXt qui offre une alternative hautement efficace et compétitive aux modèles basés sur les Transformers, permettant un entraînement performant avec moins de ressources computationnelles et de matériel.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius AzevedoWed, 11 Ma🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

Le papier présente RiO-DETR, le premier détecteur de type Transformer en temps réel pour la détection d'objets orientés, qui résout les défis spécifiques liés à l'orientation grâce à des innovations architecturales comme l'estimation d'angle pilotée par le contenu et un raffinement périodique découplé, établissant ainsi un nouveau compromis vitesse-précision sur plusieurs benchmarks.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan SunWed, 11 Ma💻 cs

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

Ce papier présente PromptDLA, un cadre d'analyse de mise en page de documents sensible au domaine qui intègre des connaissances descriptives via un générateur d'invocations personnalisé pour améliorer la généralisation et atteindre les performances les plus avancées sur plusieurs ensembles de données publics.

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating

Le papier présente MetaDAT, une méthode de prédiction de trajectoire qui améliore la généralisation face aux changements de distribution en combinant un pré-entraînement par méta-apprentissage pour une adaptation rapide et un mécanisme de mise à jour du modèle à l'inférence qui s'adapte dynamiquement aux données et aux échantillons difficiles.

Yuning Wang, Pu Zhang, Yuan He, Ke Wang, Jianru XueWed, 11 Ma💻 cs

Open-World Motion Forecasting

Cet article propose un cadre de prévision de mouvement en monde ouvert qui, en s'appuyant sur une stratégie d'apprentissage incrémental de classe combinant étiquetage pseudo et échantillonnage de replay, permet aux véhicules autonomes d'anticiper les trajectoires d'objets directement à partir d'images tout en évitant l'oubli catastrophique et en s'adaptant continuellement à de nouvelles classes d'objets.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav ValadaWed, 11 Ma🤖 cs.AI

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

Ce papier présente OncoAgent, un agent IA novateur capable de générer en zéro-shot et sans réentraînement des volumes cibles tridimensionnels pour la radiothérapie en convertissant directement des lignes directrices cliniques textuelles, surpassant ainsi les modèles supervisés traditionnels en termes de conformité aux protocoles et d'acceptabilité clinique.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung KimWed, 11 Ma🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

Le papier présente EvoDriveVLA, un cadre novateur de distillation collaborative perception-planification qui améliore les modèles Vision-Language-Action pour la conduite autonome en intégrant des contraintes perceptuelles auto-ancrées et une optimisation de trajectoire guidée par un oracle pour surmonter les problèmes de dégradation de la perception et d'instabilité à long terme.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang ZhangWed, 11 Ma🤖 cs.AI

TopoOR: A Unified Topological Scene Representation for the Operating Room

Le papier présente TopoOR, une nouvelle représentation topologique unifiée qui modélise les salles d'opération chirurgicales comme des structures d'ordre supérieur pour préserver les relations complexes et multimodales, surpassant ainsi les méthodes existantes dans des tâches critiques comme la détection de brèches de stérilité et la prédiction des phases robotiques.

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart BastianWed, 11 Ma💻 cs

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Cet article présente le Corpus Patrologia Graeca, la première ressource ouverte à grande échelle d'OCR et d'annotations linguistiques pour les éditions grecques du XIXe siècle, obtenue grâce à un pipeline spécialisé qui atteint des taux d'erreur record sur cette typographie dégradée et fournit six millions de tokens annotés pour la recherche philologique et l'entraînement de modèles.

Chahan Vidal-Gorène (CJM, LIPN), Bastien KindtWed, 11 Ma💻 cs