cs artículos | Gist.Science

Multi-Person Pose Estimation Evaluation Using Optimal Transportation and Improved Pose Matching

Este artículo propone OCpose, una nueva métrica de evaluación para la estimación de poses de múltiples personas que utiliza el transporte óptimo para equilibrar equitativamente la detección de verdaderos y falsos positivos, independientemente de sus puntuaciones de confianza, mientras aprovecha dichas puntuaciones para mejorar la fiabilidad del emparejamiento.

Takato Moriki, Hiromu Taketsugu, Norimichi Ukita2026-03-12💻 cs

Shape Control of a Planar Hyper-Redundant Robot via Hybrid Kinematics-Informed and Learning-based Approach

Este artículo presenta SpatioCoupledNet, un método de control de forma híbrido que combina cinemática y aprendizaje profundo para mejorar la estabilidad, precisión y convergencia de robots hiper-redundantes flexibles en entornos no estructurados.

Yuli Song, Wenbo Li, Wenci Xin, Zhiqiang Tang, Daniela Rus, Cecilia Laschi2026-03-12💻 cs

Rethinking Gaussian Trajectory Predictors: Calibrated Uncertainty for Safe Planning

Este artículo presenta un nuevo método de pérdida que utiliza estimación de densidad de kernel para calibrar la incertidumbre en los predictores de trayectorias gaussianos, mejorando así la seguridad y el rendimiento de la planificación de movimiento autónomo en entornos complejos.

Fatemeh Cheraghi Pouria, Mahsa Golchoubian, Katherine Driggs-Campbell2026-03-12💻 cs

Motion Forcing: A Decoupled Framework for Robust Video Generation in Motion Dynamics

El artículo presenta "Motion Forcing", un marco de generación de video que decouplea el razonamiento físico de la síntesis visual mediante una jerarquía "Punto-Forma-Apariencia" y una estrategia de recuperación de puntos enmascarados para lograr alta calidad, consistencia física y control preciso incluso en escenas complejas.

Tianshuo Xu, Zhifei Chen, Leyi Wu, Hao Lu, Ying-cong Chen2026-03-12💻 cs

Differentiable Geometric Indexing for End-to-End Generative Retrieval

El artículo presenta la Indexación Geométrica Diferenciable (DGI), un enfoque que resuelve los conflictos de optimización y geométricos en la Recuperación Generativa mediante la unificación operativa con Gumbel-Softmax y la optimización isótropa en la esfera unitaria, logrando así un rendimiento superior, especialmente en escenarios de cola larga.

Xujing Wang, Yufeng Chen, Boxuan Zhang, Jie Zhao, Chao Wei, Cai Xu, Ziyu Guan, Wei Zhao, Weiru Zhang, Xiaoyi Zeng2026-03-12💻 cs

Frames2Residual: Spatiotemporal Decoupling for Self-Supervised Video Denoising

El artículo presenta Frames2Residual (F2R), un marco de descomposición espacio-temporal que mejora el desruido de video auto-supervisado al dividir el entrenamiento en dos etapas: un estimador temporal ciego para garantizar la consistencia inter-frame y un refinador espacial no ciego para recuperar la textura intra-frame, superando así las limitaciones de las redes de punto ciego existentes.

Mingjie Ji, Zhan Shi, Kailai Zhou, Zixuan Fu, Xun Cao2026-03-12💻 cs

TractoRC: A Unified Probabilistic Learning Framework for Joint Tractography Registration and Clustering

El artículo presenta TractoRC, un marco probabilístico unificado que realiza de forma conjunta el registro y la agrupación de tractogramas mediante un espacio de incrustación latente compartido, mejorando así el rendimiento de ambas tareas en comparación con los métodos que las tratan por separado.

Yijie Li, Xi Zhu, Junyi Wang, Ye Wu, Lauren J. O'Donnell, Fan Zhang2026-03-12💻 cs

World2Act: Latent Action Post-Training via Skill-Compositional World Models

El artículo presenta World2Act, un marco de entrenamiento posterior que alinea las acciones de los modelos de visión-lenguaje-acción directamente con los latentes de dinámica de video de modelos del mundo mediante un objetivo de contraste, superando las limitaciones de los métodos basados en píxeles y mejorando la generalización mediante la descomposición automática de habilidades para modelos de mundo composicionales.

An Dinh Vuong, Tuan Van Vo, Abdullah Sohail, Haoran Ding, Liang Ma, Xiaodan Liang, Anqing Duan, Ivan Laptev, Ian Reid2026-03-12💻 cs

Reconstructing Bounded Treelength Graphs with Linearithmic Shortest Path Distance Queries

El artículo presenta un algoritmo determinista que reconstruye grafos conexos con grado acotado y longitud arbórea acotada utilizando $O(n \log n)$ consultas de distancia, mejorando el estado del arte en un factor logarítmico y igualando la cota inferior conocida para grafos de acotada cordalidad.

Chirag Kaudan (Oregon State University), Amir Nayyeri (Oregon State University)2026-03-12💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

El artículo presenta COHORT, un marco de inferencia colaborativa de redes neuronales profundas para sistemas multi-robot que utiliza una estrategia híbrida de aprendizaje por refuerzo (offline y online) para optimizar dinámicamente la distribución de tareas, logrando una reducción del 15,4% en el consumo de batería y un aumento del 51,67% en la utilización de la GPU mientras cumple con las restricciones de tiempo real.

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya Roy2026-03-12💻 cs

A Secure Splitting and Acceleration Strategy for TCP/QUIC in Interplanetary Networks

Este artículo propone PEPspace, una estrategia de transporte segura y acelerada para redes interplanetarias basada en la arquitectura de Proxy Seguro No Transparente (NTSP), que combina control de congestión basado en tasa, corrección de errores adaptativa y control de flujo por retroalimentación para superar los desafíos de latencia y pérdida en enlaces espaciales, logrando un rendimiento superior al de TCP y QUIC en escenarios Tierra-Luna.

Jianhao Yu, Ye Li, Qingfang Jiang, Shuai Liu, Wenfeng Li, Kanglian Zhao2026-03-12💻 cs

AsyncMDE: Real-Time Monocular Depth Estimation via Asynchronous Spatial Memory

El artículo presenta AsyncMDE, un sistema de estimación de profundidad monocular en tiempo real que utiliza un modelo fundacional asíncrono y un modelo ligero para reducir drásticamente el costo computacional y permitir su despliegue en dispositivos de borde sin sacrificar significativamente la precisión.

Lianjie Ma, Yuquan Li, Bingzheng Jiang, Ziming Zhong, Han Ding, Lijun Zhu2026-03-12💻 cs

KnowDiffuser: A Knowledge-Guided Diffusion Planner with LM Reasoning and Prior-Informed Trajectory Initialization

El artículo presenta KnowDiffuser, un marco de planificación de movimiento que integra el razonamiento semántico de los modelos de lenguaje con la capacidad generativa de los modelos de difusión para superar las limitaciones de cada uno y generar trayectorias continuas, físicamente viables y semánticamente alineadas en la conducción autónoma.

Fan Ding, Xuewen Luo, Fengze Yang, Bo Yu, HwaHui Tew, Ganesh Krishnasamy, Junn Yong Loo2026-03-12💻 cs

SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning

El paper presenta SignSparK, un marco de producción de lenguaje de señas multilingüe a gran escala que utiliza aprendizaje de fotogramas clave dispersos y un modelo de segmentación temporal eficiente (FAST) para generar secuencias de señas 3D fluidas y precisas, superando las limitaciones actuales mediante un enfoque de coincidencia de flujo condicional que permite edición espaciotemporal y renderizado fotorrealista.

Jianhe Low, Alexandre Symeonidis-Herzig, Maksym Ivashechkin, Ozge Mercanoglu Sincan, Richard Bowden2026-03-12💻 cs

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

El artículo presenta DiT4DiT, un modelo de acción y video que acopla transformadores de difusión para extraer características de generación de video como condiciones temporales para el control robótico, logrando un rendimiento superior y una mayor eficiencia en el aprendizaje en comparación con los enfoques actuales.

Teli Ma, Jia Zheng, Zifan Wang, Chuili Jiang, Andy Cui, Junwei Liang, Shuo Yang2026-03-12💻 cs

Machinagogy: Experiments in Staging Teaching Dramas with LLMs

Este artículo presenta "Machinagogy", un sistema de tutoría con IA fundamentado en la teoría psico-social que combina prompts de reconocimiento hegeliano y una arquitectura de agentes freudiana, validado mediante una metodología reflexiva de "investigación por atmósfera" que demuestra mejoras significativas en el rendimiento del tutor.

Liam Magee2026-03-12💻 cs

LCAMV: High-Accuracy 3D Reconstruction of Color-Varying Objects Using LCA Correction and Minimum-Variance Fusion in Structured Light

El artículo presenta LCAMV, un método robusto de reconstrucción 3D que corrige la aberración cromática lateral y fusiona datos de fase multicanal mediante estimación de mínima varianza, logrando una precisión superior en objetos coloreados sin requerir hardware adicional ni múltiples exposiciones.

Wonbeen Oh, Jae-Sang Hyun2026-03-12💻 cs

SUBTA: A Framework for Supported User-Guided Bimanual Teleoperation in Structured Assembly

El artículo presenta SUBTA, un marco de teleoperación bimanual asistida que combina estimación de intenciones, planificación de tareas y ayudas de movimiento contextuales para mejorar significativamente la precisión y reducir la carga mental en tareas de ensamblaje estructurado.

Xiao Liu, Prakash Baskaran, Songpo Li, Simon Manschitz, Wei Ma, Dirk Ruiken, Soshi Iba2026-03-12💻 cs

Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning

Este artículo presenta WanderBench, el primer benchmark global de geolocalización basado en escenarios navegables, y GeoAoT, un marco que mejora la capacidad de localización de los modelos multimodales grandes mediante la generación de planes de acción interactivos en lugar de cadenas de razonamiento puramente textuales.

Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min2026-03-12💻 cs

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

MoXaRt es un sistema de Realidad Extendida en tiempo real que utiliza una arquitectura en cascada con guías audiovisuales para separar fuentes sonoras concurrentes, mejorando significativamente la inteligibilidad del habla y reduciendo la carga cognitiva en entornos acústicos complejos.

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh Kowdle2026-03-12💻 cs

← Anterior Siguiente →