cs artículos | Gist.Science

RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

El artículo presenta RetoVLA, una arquitectura que mejora la eficiencia y el razonamiento espacial de los modelos Visión-Lenguaje-Acción al reutilizar tokens de registro descartados para inyectar contexto global en la planificación de acciones, logrando un aumento del 17,1 % en la tasa de éxito en tareas robóticas reales sin incrementar el número de parámetros.

Jiyeon Koo, Taewan Cho, Hyunjoon Kang, Eunseom Pyo, Tae Gyun Oh, Taeryang Kim, Andrew Jaeyong Choi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

El artículo presenta QuantVGGT, el primer marco de cuantización post-entrenamiento diseñado específicamente para los Transformers de Geometría Visual (VGGT) a gran escala, que supera los desafíos de las distribuciones de activación de cola pesada y la inestabilidad en la selección de muestras mediante técnicas innovadoras como la cuantización de grano fino suavizada dual y el muestreo diverso filtrado por ruido, logrando una reducción de memoria de 3.7 veces y una aceleración de 2.5 veces en hardware real manteniendo una precisión de reconstrucción superior al 98%.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Autonomous UAV-Quadruped Docking in Complex Terrains via Active Posture Alignment and Constraint-Aware Control

Este trabajo presenta un marco de acoplamiento autónomo para UAVs y robots cuadrúpedos en entornos sin GPS que utiliza aprendizaje por refuerzo para estabilizar el torso del cuadrúpedo y un controlador de modo deslizante con función de barrera para guiar al UAV, logrando un aterrizaje exitoso en terrenos complejos como escaleras y pendientes pronunciadas.

Haozhe Xu, Cheng Cheng, Hongrui Sang, Zhipeng Wang, Qiyong He, Xiuxian Li, Bin He2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

El artículo presenta MATR, un transformador consciente del movimiento que mejora el seguimiento de múltiples objetos al predecir explícitamente los desplazamientos de los objetos para actualizar las consultas de rastro, logrando así resultados de vanguardia en diversos conjuntos de datos sin depender de datos externos.

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

El artículo presenta GS-2M, un marco de optimización consciente de los materiales que utiliza 3D Gaussian Splatting para realizar una reconstrucción de mallas de alta fidelidad y resistente a superficies reflectantes mediante la optimización conjunta de atributos geométricos y una nueva estrategia de supervisión de rugosidad basada en variaciones fotométricas multivista, eliminando la necesidad de componentes neuronales complejos.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

Towards Strategic Persuasion with Language Models

Este artículo presenta un marco teórico basado en la teoría de la persuasión bayesiana para evaluar y entrenar modelos de lenguaje mediante aprendizaje por refuerzo, demostrando que tanto los modelos avanzados como los pequeños pueden desarrollar estrategias persuasivas sofisticadas y lograr ganancias significativas.

Zirui Cheng, Jiaxuan You2026-03-10💻 cs

SAC-Loco: Safe and Adjustable Compliant Quadrupedal Locomotion

El artículo presenta SAC-Loco, un marco de locomoción cuadrúpeda que integra una política de cumplimiento de fuerza ajustable mediante aprendizaje por refuerzo y un crítico de seguridad aprendido para garantizar tanto la adaptación suave a perturbaciones externas como la recuperación robusta ante fallos sin necesidad de sensores de fuerza explícitos.

Aoqian Zhang, Zixuan Zhuang, Chunzheng Wang, Shuzhi Sam Ge, Fan Shi, Cheng Xiang2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

Este artículo presenta FAMDA, un marco de adaptación de dominio no supervisado que aprovecha modelos fundacionales de visión en un paradigma de auto-entrenamiento para generar pseudoetiquetas de alta calidad, permitiendo entrenar redes estudiantas ligeras y eficientes que alcanzan un rendimiento de vanguardia en tareas de predicción densa multiobjetivo para aplicaciones robóticas.

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

El artículo presenta QuantSparse, un marco unificado que combina cuantización de modelos y esparcimiento de atención mediante destilación de atención saliente multiescala y reparametrización de atención dispersa de segundo orden para comprimir eficientemente los transformadores de difusión de video sin degradar significativamente su rendimiento.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

El artículo presenta DualFlow, un marco unificado y eficiente basado en flujo rectificado que genera movimientos 3D realistas y coordinados para dos personas condicionados a múltiples modalidades (texto, música y secuencias previas), mejorando la calidad, la sincronización y la fidelidad semántica mediante un módulo de generación aumentada por recuperación (RAG) y objetivos de alineación contrastiva.

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

ELHPlan: Efficient Long-Horizon Task Planning for Multi-Agent Collaboration

El paper presenta ELHPlan, un marco innovador para la planificación de tareas a largo plazo en colaboración multiagente que utiliza cadenas de acciones vinculadas a intenciones para equilibrar adaptabilidad y eficiencia, logrando tasas de éxito comparables a los métodos actuales mientras reduce el consumo de tokens en un 60-70%.

Shaobin Ling, Yun Wang, Chenyou Fan, Tin Lun Lam, Junjie Hu2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Este trabajo presenta PHASE-Net, un modelo ligero y teóricamente fundamentado en la física para la medición de fotopletismografía remota (rPPG) que supera las limitaciones de los métodos existentes mediante un sistema de atención armónica que combina un intercambiador axial de costo cero, un filtro espacial adaptativo y una TCN con compuertas para lograr un monitoreo fisiológico no invasivo robusto y eficiente.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

El artículo presenta LMOD+, un conjunto de datos y benchmark multimodal a gran escala en oftalmología que expande significativamente el trabajo previo para evaluar modelos de lenguaje grandes multimodales en tareas como diagnóstico, estadificación y predicción demográfica, con el objetivo de avanzar en aplicaciones de IA para reducir la carga global de enfermedades oculares.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Demystifying Codensity Monads via Duality

Este artículo propone un enfoque categórico unificado basado en la dualidad para demostrar que múltiples monadas importantes en lógica y semántica, así como nuevas presentaciones de monadas de filtros y expectativas, surgen de manera natural y simplificada como monadas de codensidad.

Fabian Lenke, Nico Wittrock, Stefan Milius, Henning Urbat2026-03-10💻 cs

Radio-based Multi-Robot Odometry and Relative Localization

Este trabajo propone un sistema de localización relativa entre robots aéreos y terrestres que combina datos de UWB y radar con sensores inerciales y de odometría dentro de un marco de optimización de grafos, demostrando mediante simulaciones y datos reales un rendimiento superior a los métodos de estado del arte y ofreciendo un código abierto para su extensibilidad a SLAM.

Andrés Martínez-Silva, David Alejo, Luis Merino, Fernando Caballero2026-03-10💻 cs

XPPG-PCA: Reference-free automatic speech severity evaluation with principal components

Este artículo presenta XPPG-PCA, un método automático, no supervisado y sin referencias para evaluar la gravedad de patologías del habla que demuestra un rendimiento superior o comparable a los métodos existentes, ofreciendo una solución robusta y generalizable para la evaluación clínica objetiva.

Bence Mark Halpern, Thomas B. Tienkamp, Teja Rebernik + 5 more2026-03-10💻 cs

Beyond Collision Cones: Dynamic Obstacle Avoidance for Nonholonomic Robots via Dynamic Parabolic Control Barrier Functions

Este artículo propone una Función de Barrera de Control Parabólica Dinámica (DPCBF) que, al adaptar su frontera de seguridad según la distancia y la velocidad relativa, supera las limitaciones de conservadurismo y factibilidad de los métodos basados en conos de colisión, permitiendo a robots no holonómicos navegar con éxito en entornos densos con hasta 100 obstáculos dinámicos.

Hun Kuk Park, Taekyung Kim, Dimitra Panagou2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

El artículo presenta REVEL, una nueva tarea de manipulación interactiva de videos en tiempo real que permite modificar cualquier elemento en cualquier momento, y propone DragStream, un método sin entrenamiento que corrige la deriva latente y mitiga interferencias contextuales para lograr resultados visualmente naturales en modelos de difusión autoregresivos.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Enhancing Speaker Verification with w2v-BERT 2.0 and Knowledge Distillation guided Structured Pruning

Este trabajo presenta un sistema de verificación de hablantes que utiliza w2v-BERT 2.0 con adaptadores de capa y LoRA para lograr resultados de vanguardia, y demuestra que la poda estructurada guiada por destilación de conocimiento puede reducir el tamaño del modelo en un 80% con una degradación mínima en el rendimiento.

Ze Li, Ming Cheng, Ming Li2026-03-10💻 cs

PAD-TRO: Projection-Augmented Diffusion for Direct Trajectory Optimization

PAD-TRO es un enfoque novedoso de optimización directa de trayectorias basado en difusión que genera secuencias de estados y utiliza un mecanismo de proyección sin gradientes para garantizar la viabilidad dinámica, logrando una tasa de éxito cuatro veces mayor y cero errores de viabilidad en comparación con métodos anteriores en escenarios de navegación de cuadricópteros.

Jushan Chen, Santiago Paternain2026-03-10💻 cs

← Anterior Siguiente →