Multi-Person Pose Estimation Evaluation Using Optimal Transportation and Improved Pose Matching

Este artículo propone OCpose, una nueva métrica de evaluación para la estimación de poses de múltiples personas que utiliza el transporte óptimo para equilibrar equitativamente la detección de verdaderos y falsos positivos, independientemente de sus puntuaciones de confianza, mientras aprovecha dichas puntuaciones para mejorar la fiabilidad del emparejamiento.

Takato Moriki, Hiromu Taketsugu, Norimichi Ukita2026-03-12💻 cs

Differentiable Geometric Indexing for End-to-End Generative Retrieval

El artículo presenta la Indexación Geométrica Diferenciable (DGI), un enfoque que resuelve los conflictos de optimización y geométricos en la Recuperación Generativa mediante la unificación operativa con Gumbel-Softmax y la optimización isótropa en la esfera unitaria, logrando así un rendimiento superior, especialmente en escenarios de cola larga.

Xujing Wang, Yufeng Chen, Boxuan Zhang, Jie Zhao, Chao Wei, Cai Xu, Ziyu Guan, Wei Zhao, Weiru Zhang, Xiaoyi Zeng2026-03-12💻 cs

Frames2Residual: Spatiotemporal Decoupling for Self-Supervised Video Denoising

El artículo presenta Frames2Residual (F2R), un marco de descomposición espacio-temporal que mejora el desruido de video auto-supervisado al dividir el entrenamiento en dos etapas: un estimador temporal ciego para garantizar la consistencia inter-frame y un refinador espacial no ciego para recuperar la textura intra-frame, superando así las limitaciones de las redes de punto ciego existentes.

Mingjie Ji, Zhan Shi, Kailai Zhou, Zixuan Fu, Xun Cao2026-03-12💻 cs

World2Act: Latent Action Post-Training via Skill-Compositional World Models

El artículo presenta World2Act, un marco de entrenamiento posterior que alinea las acciones de los modelos de visión-lenguaje-acción directamente con los latentes de dinámica de video de modelos del mundo mediante un objetivo de contraste, superando las limitaciones de los métodos basados en píxeles y mejorando la generalización mediante la descomposición automática de habilidades para modelos de mundo composicionales.

An Dinh Vuong, Tuan Van Vo, Abdullah Sohail, Haoran Ding, Liang Ma, Xiaodan Liang, Anqing Duan, Ivan Laptev, Ian Reid2026-03-12💻 cs

Reconstructing Bounded Treelength Graphs with Linearithmic Shortest Path Distance Queries

El artículo presenta un algoritmo determinista que reconstruye grafos conexos con grado acotado y longitud arbórea acotada utilizando O(nlogn)O(n \log n) consultas de distancia, mejorando el estado del arte en un factor logarítmico y igualando la cota inferior conocida para grafos de acotada cordalidad.

Chirag Kaudan (Oregon State University), Amir Nayyeri (Oregon State University)2026-03-12💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

El artículo presenta COHORT, un marco de inferencia colaborativa de redes neuronales profundas para sistemas multi-robot que utiliza una estrategia híbrida de aprendizaje por refuerzo (offline y online) para optimizar dinámicamente la distribución de tareas, logrando una reducción del 15,4% en el consumo de batería y un aumento del 51,67% en la utilización de la GPU mientras cumple con las restricciones de tiempo real.

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya Roy2026-03-12💻 cs

A Secure Splitting and Acceleration Strategy for TCP/QUIC in Interplanetary Networks

Este artículo propone PEPspace, una estrategia de transporte segura y acelerada para redes interplanetarias basada en la arquitectura de Proxy Seguro No Transparente (NTSP), que combina control de congestión basado en tasa, corrección de errores adaptativa y control de flujo por retroalimentación para superar los desafíos de latencia y pérdida en enlaces espaciales, logrando un rendimiento superior al de TCP y QUIC en escenarios Tierra-Luna.

Jianhao Yu, Ye Li, Qingfang Jiang, Shuai Liu, Wenfeng Li, Kanglian Zhao2026-03-12💻 cs

KnowDiffuser: A Knowledge-Guided Diffusion Planner with LM Reasoning and Prior-Informed Trajectory Initialization

El artículo presenta KnowDiffuser, un marco de planificación de movimiento que integra el razonamiento semántico de los modelos de lenguaje con la capacidad generativa de los modelos de difusión para superar las limitaciones de cada uno y generar trayectorias continuas, físicamente viables y semánticamente alineadas en la conducción autónoma.

Fan Ding, Xuewen Luo, Fengze Yang, Bo Yu, HwaHui Tew, Ganesh Krishnasamy, Junn Yong Loo2026-03-12💻 cs

SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning

El paper presenta SignSparK, un marco de producción de lenguaje de señas multilingüe a gran escala que utiliza aprendizaje de fotogramas clave dispersos y un modelo de segmentación temporal eficiente (FAST) para generar secuencias de señas 3D fluidas y precisas, superando las limitaciones actuales mediante un enfoque de coincidencia de flujo condicional que permite edición espaciotemporal y renderizado fotorrealista.

Jianhe Low, Alexandre Symeonidis-Herzig, Maksym Ivashechkin, Ozge Mercanoglu Sincan, Richard Bowden2026-03-12💻 cs

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

El artículo presenta DiT4DiT, un modelo de acción y video que acopla transformadores de difusión para extraer características de generación de video como condiciones temporales para el control robótico, logrando un rendimiento superior y una mayor eficiencia en el aprendizaje en comparación con los enfoques actuales.

Teli Ma, Jia Zheng, Zifan Wang, Chuili Jiang, Andy Cui, Junwei Liang, Shuo Yang2026-03-12💻 cs

Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning

Este artículo presenta WanderBench, el primer benchmark global de geolocalización basado en escenarios navegables, y GeoAoT, un marco que mejora la capacidad de localización de los modelos multimodales grandes mediante la generación de planes de acción interactivos en lugar de cadenas de razonamiento puramente textuales.

Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min2026-03-12💻 cs