cs.AI artículos | Gist.Science

CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval

El artículo presenta CMMR-VLN, un marco de navegación visual y lingüística que mejora el rendimiento de los agentes LLM en escenarios complejos mediante una memoria multimodal estructurada, recuperación de experiencias pasadas y una estrategia de actualización reflexiva, logrando mejoras significativas en las tasas de éxito tanto en simulación como en pruebas reales.

Haozhou Li, Xiangyu Dong, Huiyan Jiang, Yaoming Zhou, Xiaoguang Ma2026-03-10💻 cs

Aero-Promptness: Drag-Aware Aerodynamic Manipulability for Propeller-driven Vehicles

Este trabajo presenta el Marco de Manipulabilidad Aerodinámica Consciente de la Resistencia (DAAM), una formulación geométrica que utiliza una métrica Riemanniana para resolver la redundancia en vehículos multirotor, optimizando la asignación de fuerzas generales mientras penaliza explícitamente la saturación por resistencia aerodinámica y las pérdidas de empuje a bajas revoluciones.

Antonio Franchi2026-03-10🔢 math

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

El artículo presenta ViSA, un marco mejorado para la navegación aérea visión-lenguaje que utiliza un razonamiento visual-espacial de tres fases para permitir que los modelos de lenguaje visual realicen inferencias directas en planos de imagen sin entrenamiento adicional, logrando una mejora del 70,3% en la tasa de éxito frente a los métodos actuales.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

El artículo presenta PIRA-Bench, un nuevo benchmark y la metodología PIRF diseñados para evaluar y capacitar a agentes de GUI multimodales para transitar de un paradigma reactivo a uno proactivo, permitiéndoles anticipar las intenciones del usuario a partir de entradas visuales continuas y ruidosas.

Yuxiang Chai, Shunye Tang, Han Xiao, Rui Liu, Hongsheng Li2026-03-10💻 cs

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

El artículo propone FedMomentum, un marco novedoso que preserva el impulso de entrenamiento en el ajuste fino federado de modelos de lenguaje mediante la agregación estructurada de adaptaciones LoRA utilizando descomposición de valores singulares (SVD), superando así las limitaciones de ruido y expresividad estructural de los métodos existentes para lograr una convergencia más rápida y un rendimiento superior.

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Alignment--Process--Outcome: Rethinking How AIs and Humans Collaborate

Este artículo propone un marco unificado que, mediante las lentes de la tarea y la intención, reinterpreta la colaboración entre humanos e IA como una dinámica compleja donde la alineación, el proceso y el resultado no guardan una relación lineal simple, sino que interactúan de formas estructurales diversas en distintos contextos de interacción.

Haichang Li, Anjun Zhu, Arpit Narechania2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Este artículo presenta MambaDance, un nuevo enfoque de generación de danza que sustituye a los transformadores por un modelo de difusión basado en Mamba e incorpora una representación de ritmo basada en Gaussianas para producir movimientos sincronizados con la música que capturan eficazmente las características secuenciales y rítmicas del baile.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

El artículo presenta DyLLM, un marco de inferencia sin entrenamiento que acelera la generación de modelos de lenguaje de difusión enmascarada al identificar y calcular selectivamente solo los tokens salientes, logrando un aumento de hasta 9,6 veces en el rendimiento sin comprometer la precisión.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

El artículo presenta GCGNet, una red generativa basada en grafos que mejora la predicción de series temporales con variables exógenas al modelar conjuntamente las correlaciones temporales y de canal mediante un generador variacional, un alineador de estructura de grafos y un refinador, logrando así mayor robustez ante el ruido y superando a los métodos actuales en múltiples conjuntos de datos reales.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Este trabajo presenta un marco multimodal robusto basado en Transformers con atención cruzada segura y dropout de modalidades, que combina pérdidas focales y votación suave por ventanas deslizantes para superar los desafíos de oclusiones, datos faltantes y desequilibrio de clases en el reconocimiento de emociones del desafío ABAW, logrando un 60,79 % de precisión en el conjunto de validación Aff-Wild2.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

El artículo presenta CDRRM, un marco de modelado de recompensas que genera rúbricas interpretables mediante un paradigma de contraste y síntesis para superar los sesgos y la dependencia de anotaciones costosas, logrando un rendimiento superior con alta eficiencia de datos.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

S2S-FDD: Bridging Industrial Time Series and Natural Language for Explainable Zero-shot Fault Diagnosis

El artículo presenta S2S-FDD, un marco de diagnóstico de fallos explicable y de cero disparos que cierra la brecha semántica entre las señales de series temporales industriales y los modelos de lenguaje grande mediante la conversión de datos en resúmenes naturales y un método de diagnóstico en árbol con retroalimentación humana.

Baoxue Li, Chunhui Zhao2026-03-10💻 cs

Speed3R: Sparse Feed-forward 3D Reconstruction Models

Speed3R es un modelo de reconstrucción 3D feed-forward que supera el cuello de botella computacional de la atención densa mediante un mecanismo de atención dual inspirado en la estructura desde el movimiento, logrando una aceleración de inferencia de 12,4 veces en secuencias de 1000 vistas con un mínimo compromiso en la precisión geométrica.

Weining Ren, Xiao Tan, Kai Han2026-03-10💻 cs

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

El artículo presenta ImageEdit-R1, un marco multiagente que utiliza aprendizaje por refuerzo para coordinar agentes especializados y abordar las limitaciones de los sistemas de edición de imágenes existentes al interpretar instrucciones complejas y realizar ediciones coherentes y orientadas a objetivos.

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

In-Context Reinforcement Learning for Tool Use in Large Language Models

Este trabajo propone el Aprendizaje por Refuerzo en Contexto (ICRL), un marco que elimina la necesidad de ajuste fino supervisado mediante el uso de ejemplos en contexto durante el entrenamiento por refuerzo, logrando un rendimiento superior en tareas de uso de herramientas con mayor eficiencia de datos.

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

El artículo presenta DSH-Bench, un nuevo benchmark integral para la generación de imágenes basada en texto impulsada por sujetos que supera las limitaciones de evaluaciones anteriores mediante una taxonomía jerárquica de 58 categorías, una clasificación detallada de dificultad y escenarios, y una nueva métrica de consistencia de identidad (SICS) para ofrecer diagnósticos precisos y guiar el desarrollo futuro de modelos.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Este artículo presenta el marco DC-W2S, que entrena modelos de recompensa de proceso fiables para el razonamiento biológico mediante la combinación de consenso interno y vecinal para filtrar señales de supervisión ruidosas, demostrando que la curaduría estratégica de datos es más efectiva que el entrenamiento indiscriminado en grandes conjuntos de datos.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

Este artículo presenta UIS-Digger, un marco de agentes multi-sistema diseñado para superar las limitaciones de la búsqueda de información no indexada mediante la navegación dual y el análisis de archivos, junto con el primer benchmark dedicado (UIS-QA) que demuestra cómo esta solución supera a modelos de lenguaje más grandes en tareas de recuperación de datos ocultos.

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng Shang2026-03-10💻 cs

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

El artículo presenta SaiVLA-0, una arquitectura de visión-lenguaje-acción inspirada en la neurociencia que utiliza un diseño tripartito (Cerebro, Puente y Cerebelo) para lograr un control adaptable, eficiente en cómputo y modular, demostrando mejoras significativas en tiempo de entrenamiento y tasas de éxito en tareas robóticas.

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

El artículo presenta FoleyFlow, un método que mejora la generación coordinada de audio a partir de video mediante un entrenamiento de alineación multimodal enmascarada y un flujo condicional dinámico, logrando una sincronización semántica y rítmica superior a las técnicas anteriores.

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

← Anterior Siguiente →