See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

El marco See, Plan, Rewind (SPR) mejora la manipulación robótica al medir el progreso mediante hitos espaciales, permitiendo la planificación de trayectorias y la recuperación automática de errores mediante un ciclo cerrado que supera a los modelos existentes en robustez y generalización.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

El artículo presenta IntroSVG, un marco generativo introspectivo que utiliza un modelo de lenguaje visual unificado en un bucle cerrado de "generar-revisar-refinar" con retroalimentación visual y optimización directa de preferencias para superar las limitaciones de los métodos actuales y producir gráficos vectoriales escalables (SVG) de mayor calidad, complejidad y alineación semántica.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu Gao2026-03-11💻 cs

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

El artículo presenta NLiPsCalib, un marco de calibración eficiente y consistente con la física que utiliza estereofotometría de luz cercana para lograr una reconstrucción 3D de alta fidelidad en sensores visuotáctiles curvos mediante contactos simples con objetos cotidianos, eliminando la necesidad de dispositivos de calibración costosos y laboriosos.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi Xiao2026-03-11💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Este artículo presenta SpaceSense-Bench, un nuevo benchmark de percepción espacial a gran escala y multimodal que ofrece datos sintéticos de alta fidelidad con anotaciones precisas para superar las limitaciones de los conjuntos de datos existentes y mejorar la navegación relativa y el entendimiento semántico de satélites.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue Wan2026-03-11🤖 cs.AI

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

Este trabajo presenta OddGridBench, un nuevo benchmark que revela la deficiente sensibilidad a discrepancias visuales de los modelos de lenguaje multimodal actuales, y propone OddGrid-GRPO, un marco de aprendizaje por refuerzo que mejora significativamente esta capacidad mediante aprendizaje curricular y recompensas conscientes de la distancia espacial.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong Ming2026-03-11💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Este artículo presenta STAR, un nuevo marco de evaluación multiagente que demuestra que la inteligencia estratégica en entornos competitivos y dinámicos depende no solo de la profundidad del razonamiento, sino también de la capacidad de ejecutar planes de manera oportuna, revelando una brecha significativa entre el rendimiento en escenarios por turnos y en tiempo real.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao Zhu2026-03-11🤖 cs.AI

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

El artículo presenta EPPINN, un marco de aprendizaje profundo evidencial basado en redes neuronales informadas por física que mejora la precisión y fiabilidad de la estimación de parámetros de perfusión en la tomografía computarizada para el ictus isquémico agudo al cuantificar la incertidumbre aleatoria y epistémica sin necesidad de muestreo bayesiano.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung Choi2026-03-11💻 cs

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

El artículo presenta M3GCLR, un marco de aprendizaje contrastivo basado en teoría de juegos que aborda las limitaciones de los métodos existentes mediante un modelo de juego infinito de datos esqueléticos y un optimizador de equilibrio dual, logrando un rendimiento superior en la reconocimiento de acciones basado en esqueletos.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui Dai2026-03-11🤖 cs.AI

EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

El artículo presenta EventVGGT, un marco innovador que mejora la estimación de profundidad basada en eventos mediante la distilación de conocimientos espaciotemporales y geométricos del modelo VGGT, superando las limitaciones de consistencia temporal y precisión de los métodos anteriores al tratar las secuencias de eventos como videos coherentes en lugar de fotogramas independientes.

Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui Xiong2026-03-11💻 cs

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

El informe presenta el desafío ICDAR 2025 sobre traducción automática de imágenes de documentos, que reunió a 69 equipos para evaluar sistemas end-to-end en dos pistas (con y sin OCR) y concluye que los enfoques de modelos grandes establecen un nuevo paradigma prometedor para la traducción de documentos con diseños complejos.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Este artículo presenta el modelo de difusión totalmente convolucional (FCDM), una arquitectura basada en ConvNeXt que demuestra ser una alternativa altamente eficiente y competitiva a los modelos basados en transformadores, logrando un rendimiento comparable con la mitad de las operaciones de punto flotante, menos pasos de entrenamiento y la capacidad de entrenarse en sistemas de solo 4 GPUs.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

El artículo presenta RiO-DETR, el primer transformador de detección en tiempo real para objetos orientados, que supera los desafíos de la periodicidad angular y la convergencia mediante diseños nativos como la estimación de ángulos impulsada por contenido y una refinación periódica desacoplada, logrando un nuevo equilibrio entre velocidad y precisión en conjuntos de datos de detección aérea.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan Sun2026-03-11💻 cs