cs artículos | Gist.Science

LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

El artículo presenta LLaVAShield, un sistema de seguridad diseñado para auditar diálogos multimodales de múltiples turnos en modelos de visión-idioma, respaldado por el nuevo conjunto de datos MMDS y el marco de red teaming MMRT, que supera a las herramientas existentes al abordar riesgos contextuales y de intención oculta.

Guolei Huang, Qinzhi Peng, Gan Xu, Yao Huang, Yuxuan Lu, Yongjun Shen2026-03-11💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

Este estudio presenta un pipeline de aprendizaje profundo escalable que, mediante un enfoque de U-Net de doble paso aplicado a mapas históricos, genera el primer conjunto de datos nacional de huellas urbanas abierto para Francia entre 1925 y 1950, superando las limitaciones de ruido y artefactos de los mapas antiguos.

Walid Rabehi, Marion Le Texier, Rémi Lemoy2026-03-11💻 cs

Connectivity Maintenance and Recovery for Multi-Robot Motion Planning

Los autores proponen un algoritmo de planificación de movimiento en tiempo real basado en curvas Bézier y funciones de barrera y Lyapunov (MPC-CLF-CBF) que garantiza la conectividad y mejora la navegación de flotas de robots en entornos cluttered, permitiendo la recuperación ante pérdidas de conexión y validándose mediante simulaciones y experimentos físicos con ocho cuadricópteros Crazyflie.

Yutong Wang, Lishuo Pan, Yichun Qu, Tengxiang Wang, Nora Ayanian2026-03-11💻 cs

LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment

El artículo presenta LARA-Gen, un marco que habilita el control continuo y fino de las emociones en la generación de música mediante la alineación de representaciones latentes afectivas y un módulo basado en el espacio valencia-activación, superando las limitaciones de los enfoques basados en texto y logrando un rendimiento superior en adherencia emocional y calidad musical.

Jiahao Mei, Xuenan Xu, Zeyu Xie, Zihao Zheng, Ye Tao, Yue Ding, Mengyue Wu2026-03-11💻 cs

Asset-Centric Metric-Semantic Maps of Indoor Environments

Este artículo presenta un sistema de mapeo métrico-semántico centrado en activos para entornos interiores que combina mallas detalladas de objetos con sus categorías y poses, logrando una precisión superior a los métodos basados en modelos fundamentales y una integración eficiente con modelos de lenguaje grandes para la navegación y planificación robótica.

Christopher D. Hsu, Pratik Chaudhari2026-03-11💻 cs

NaviGait: Navigating Dynamically Feasible Gait Libraries using Deep Reinforcement Learning

NaviGait es un marco jerárquico que combina la optimización de trayectorias con el aprendizaje por refuerzo para sintetizar locomoción bípeda robusta e intuitiva seleccionando y ajustando mínimamente patrones de marcha de una librería offline, lo que simplifica el diseño de recompensas y acelera el entrenamiento en comparación con métodos convencionales.

Neil Janwani, Varun Madabushi, Maegan Tucker2026-03-11💻 cs

BanaServe: Unified KV Cache and Dynamic Module Migration for Balancing Disaggregated LLM Serving in AI Infrastructure

El artículo presenta BanaServe, un marco de orquestación dinámica para la inferencia de modelos de lenguaje grandes (LLM) que optimiza el equilibrio de recursos y la eficiencia en arquitecturas desacopladas mediante la migración flexible de pesos y cachés KV, superando significativamente a soluciones existentes como vLLM y DistServe en rendimiento y latencia.

Yiyuan He, Minxian Xu, Jingfeng Wu + 7 more2026-03-11💻 cs

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Este trabajo presenta un marco de compresión de video neuronal en tiempo real que unifica la codificación intra e inter en un único modelo adaptativo, superando las limitaciones de propagación de errores y manejo de contenido nuevo de los métodos anteriores para lograr una reducción del 12,1% en la tasa BD-rate con rendimiento en tiempo real.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong Liu2026-03-11💻 cs

Polynomial-time Configuration Generator for Connected Unlabeled Multi-Agent Pathfinding

El artículo presenta PULL, un algoritmo completo y eficiente en tiempo polinómico que supera las limitaciones de escalabilidad de los enfoques basados en programación lineal entera para resolver el problema de búsqueda de caminos multiagente no etiquetado y conectado (CUMAPF) en robótica de enjambre.

Takahiro Suzuki, Keisuke Okumura2026-03-11💻 cs

Revisiting Replanning from Scratch: Real-Time Incremental Planning with Fast Almost-Surely Asymptotically Optimal Planners

Este artículo demuestra que la planificación incremental reactiva puede resolverse de manera más eficiente mediante una serie de problemas independientes utilizando algoritmos de planificación casi-asintóticamente óptimos (ASAO), como EIT* y AORRTC, los cuales encuentran planes globales consistentes en entornos cambiantes sin necesidad de reutilizar explícitamente planes anteriores.

Mitchell E. C. Sabbadini, Andrew H. Liu, Joseph Ruan, Tyler S. Wilson, Zachary Kingston, Jonathan D. Gammell2026-03-11💻 cs

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Este artículo demuestra que la selección estratégica de un subconjunto específico de hitos corporales, combinada con técnicas de imputación, permite reconocer signos aislados de la LIBRAS con una precisión comparable o superior a los métodos actuales mientras reduce el tiempo de procesamiento en más de cinco veces.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. Paixão2026-03-11💻 cs

Who Made This? Fake Detection and Source Attribution with Diffusion Features

El artículo presenta FRIDA, un marco ligero y eficiente que utiliza características de modelos de difusión preentrenados para detectar imágenes generadas por IA y atribuir su fuente con alto rendimiento en escenarios de generalización cruzada.

Simone Bonechi, Paolo Andreini, Barbara Toniella Corradini2026-03-11💻 cs

EgoMI: Learning Active Vision and Whole-Body Manipulation from Egocentric Human Demonstrations

El artículo presenta EgoMI, un marco que supera la brecha de encarnación en el aprendizaje por imitación al capturar trayectorias sincronizadas de manos y cabeza activa de demostraciones humanas, permitiendo a robots semihumanoides replicar estrategias de fijación visual dinámica mediante una política aumentada con memoria para lograr una manipulación robusta.

Justin Yu, Yide Shentu, Di Wu, Pieter Abbeel, Ken Goldberg, Philipp Wu2026-03-11💻 cs

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

El artículo presenta SPAN, un nuevo enfoque de alineación de proyección espacial que mejora la detección 3D monocular al imponer restricciones espaciales globales y de proyección 2D-3D para corregir la inconsistencia geométrica inherente a los paradigmas de predicción desacoplada, logrando así un rendimiento superior mediante una estrategia de aprendizaje jerárquico.

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming Yang2026-03-11💻 cs

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

El artículo presenta V-Attack, un método novedoso que logra ataques adversarios controlables y precisos en Modelos Grandes de Visión y Lenguaje (LVLM) al manipular las características de valor (V) desentrelazadas en lugar de las representaciones de parches enredadas, logrando una tasa de éxito de ataque un 36% superior a los métodos existentes.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin Chen2026-03-11💻 cs

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

El artículo presenta AFRO, un marco de aprendizaje auto-supervisado que genera representaciones 3D conscientes de la dinámica mediante un proceso difusivo y la modelación conjunta de dinámicas directas e inversas, logrando un rendimiento superior en tareas de manipulación robótica sin necesidad de supervisión de acciones o reconstrucción geométrica explícita.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing Xu2026-03-11💻 cs

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Este trabajo presenta el primer marco formal para Modelos de Mundo Audiovisuales (AVWM), introduciendo el conjunto de datos AVW-4k y el modelo AV-CDiT para simular dinámicas ambientales sincronizadas en audio y visión, lo que mejora significativamente la planificación y navegación de agentes en entornos multisensoriales.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin Mao2026-03-11💻 cs

Beware of the Classical Benchmark Instances for the Traveling Salesman Problem with Time Windows

El artículo demuestra que un método exacto sencillo resuelve casi todas las instancias clásicas de referencia del problema del viajante con ventanas de tiempo en menos de diez segundos, lo que indica que estas ya no son representativas para evaluar algoritmos ni para diseñar conjuntos de entrenamiento difíciles para aprendizaje automático.

Francisco J. Soulignac2026-03-11💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

Este artículo presenta AVGGT, un método de aceleración sin entrenamiento que analiza y reestructura la atención global en modelos como VGGT y $\pi^3$ mediante la conversión de capas tempranas y el muestreo de tokens, logrando aceleraciones de inferencia de hasta 10 veces en secuencias largas sin sacrificar la precisión.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu Zhang2026-03-11💻 cs

UniBYD: A Unified Framework for Learning Robotic Manipulation Across Embodiments Beyond Imitation of Human Demonstrations

El artículo presenta UniBYD, un marco unificado que supera las limitaciones de la imitación humana en la manipulación robótica mediante un algoritmo de aprendizaje por refuerzo dinámico y una representación morfológica unificada, logrando un rendimiento superior al estado del arte al adaptar las políticas a las características físicas específicas de diversos robots.

Tingyu Yuan, Biaoliang Guan, Wen Ye, Ziyan Tian, Yi Yang, Weijie Zhou, Zhaowen Li, Yan Huang, Peng Wang, Chaoyang Zhao, Jinqiao Wang2026-03-11💻 cs

← Anterior Siguiente →