Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

El artículo presenta EPPINN, un marco de aprendizaje profundo evidencial basado en redes neuronales informadas por física que mejora la precisión y fiabilidad de la estimación de parámetros de perfusión en la tomografía computarizada para el ictus isquémico agudo al cuantificar la incertidumbre aleatoria y epistémica sin necesidad de muestreo bayesiano.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung ChoiWed, 11 Ma💻 cs

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

El artículo presenta M3GCLR, un marco de aprendizaje contrastivo basado en teoría de juegos que aborda las limitaciones de los métodos existentes mediante un modelo de juego infinito de datos esqueléticos y un optimizador de equilibrio dual, logrando un rendimiento superior en la reconocimiento de acciones basado en esqueletos.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui DaiWed, 11 Ma🤖 cs.AI

EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

El artículo presenta EventVGGT, un marco innovador que mejora la estimación de profundidad basada en eventos mediante la distilación de conocimientos espaciotemporales y geométricos del modelo VGGT, superando las limitaciones de consistencia temporal y precisión de los métodos anteriores al tratar las secuencias de eventos como videos coherentes en lugar de fotogramas independientes.

Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui XiongWed, 11 Ma💻 cs

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

El informe presenta el desafío ICDAR 2025 sobre traducción automática de imágenes de documentos, que reunió a 69 equipos para evaluar sistemas end-to-end en dos pistas (con y sin OCR) y concluye que los enfoques de modelos grandes establecen un nuevo paradigma prometedor para la traducción de documentos con diseños complejos.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Este artículo presenta el modelo de difusión totalmente convolucional (FCDM), una arquitectura basada en ConvNeXt que demuestra ser una alternativa altamente eficiente y competitiva a los modelos basados en transformadores, logrando un rendimiento comparable con la mitad de las operaciones de punto flotante, menos pasos de entrenamiento y la capacidad de entrenarse en sistemas de solo 4 GPUs.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius AzevedoWed, 11 Ma🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

El artículo presenta RiO-DETR, el primer transformador de detección en tiempo real para objetos orientados, que supera los desafíos de la periodicidad angular y la convergencia mediante diseños nativos como la estimación de ángulos impulsada por contenido y una refinación periódica desacoplada, logrando un nuevo equilibrio entre velocidad y precisión en conjuntos de datos de detección aérea.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan SunWed, 11 Ma💻 cs

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

El artículo presenta PromptDLA, un marco de análisis de diseño de documentos consciente del dominio que utiliza conocimientos descriptivos como pistas para integrar priores específicos en el entrenamiento, logrando un rendimiento superior al estado del arte en múltiples conjuntos de datos al abordar las variaciones estructurales entre diferentes dominios.

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

CIGPose: Causal Intervention Graph Neural Network for Whole-Body Pose Estimation

El artículo presenta CIGPose, un marco basado en redes neuronales gráficas e intervención causal que elimina las correlaciones espurias del contexto visual mediante la sustitución de representaciones de keypoints confundidas, logrando así un nuevo estado del arte en la estimación de poses corporales completas con mayor robustez y plausibilidad anatómica.

Bohao Li, Zhicheng Cao, Huixian Li, Yangming GuoWed, 11 Ma💻 cs

Open-World Motion Forecasting

Este trabajo introduce el primer marco de pronóstico de movimiento de clase incremental en un entorno abierto que, mediante estrategias de autoetiquetado y muestreo de replay, mitiga el olvido catastrófico para predecir trayectorias de agentes dinámicos directamente desde imágenes de cámara, permitiendo la adaptación continua de sistemas de conducción autónoma a nuevas clases de objetos.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav ValadaWed, 11 Ma🤖 cs.AI

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

El artículo presenta OncoAgent, un agente de IA consciente de las directrices clínicas que genera automáticamente volúmenes tumorales en radioterapia sin necesidad de reentrenamiento, logrando un rendimiento comparable a modelos supervisados y una mayor preferencia clínica gracias a su capacidad de adaptación inmediata a diferentes guías y sitios anatómicos.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung KimWed, 11 Ma🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

El artículo presenta EvoDriveVLA, un marco innovador de destilación colaborativa percepción-planificación que integra restricciones perceptuales autoancladas y optimización de trayectorias guiada por oráculos para superar las limitaciones de los modelos VLA en la conducción autónoma y lograr un rendimiento superior tanto en evaluaciones de circuito abierto como cerrado.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang ZhangWed, 11 Ma🤖 cs.AI

TopoOR: A Unified Topological Scene Representation for the Operating Room

El artículo presenta TopoOR, un nuevo paradigma que representa las salas de operaciones mediante estructuras topológicas de alto orden para preservar las relaciones grupales y la geometría multimodal, superando así las limitaciones de los grafos tradicionales y mejorando tareas críticas como la detección de violaciones de esterilidad y la predicción de fases quirúrgicas.

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart BastianWed, 11 Ma💻 cs

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Este artículo presenta el Corpus Patrologia Graeca, el primer recurso abierto a gran escala que combina reconocimiento óptico de caracteres (OCR) y anotación lingüística para las ediciones griegas del siglo XIX, logrando una precisión superior a la de los sistemas existentes y proporcionando un corpus de seis millones de tokens para el entrenamiento de modelos futuros.

Chahan Vidal-Gorène (CJM, LIPN), Bastien KindtWed, 11 Ma💻 cs