cs.AI artículos | Gist.Science

PSTNet: Physically-Structured Turbulence Network

El artículo presenta PSTNet, una red neuronal ligera de solo 552 parámetros que integra principios físicos directamente en su arquitectura para estimar en tiempo real la intensidad de la turbulencia atmosférica en sistemas de guía de aeronaves con recursos limitados, logrando una mayor precisión y eficiencia que los modelos clásicos o genéricos.

Boris Kriuk, Fedor Kriuk2026-03-10🤖 cs.LG

Advancing Automated Algorithm Design via Evolutionary Stagewise Design with LLMs

El artículo presenta EvoStage, un nuevo paradigma evolutivo que utiliza agentes múltiples y un mecanismo de perspectiva global-local para guiar a los modelos de lenguaje grandes en el diseño de algoritmos por etapas, logrando resultados superiores a los de expertos humanos y métodos existentes en tareas complejas como la colocación de chips y la optimización bayesiana.

Chen Lu, Ke Xue, Chengrui Gao, Yunqi Shi, Siyuan Xu, Mingxuan Yuan, Chao Qian, Zhi-Hua Zhou2026-03-10💻 cs

Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs with Continual Learning

El artículo presenta HILA, un marco de colaboración humano-agente que utiliza una optimización de política de doble bucle para entrenar agentes multiagente con metacognición, permitiéndoles decidir cuándo resolver problemas autónomamente y cuándo consultar a expertos humanos para mejorar continuamente su razonamiento y superar las limitaciones de conocimiento estático.

Wei Yang, Defu Cao, Jiacheng Pang, Muyan Weng, Yan Liu2026-03-10💻 cs

VORL-EXPLORE: A Hybrid Learning Planning Approach to Multi-Robot Exploration in Dynamic Environments

El artículo presenta VORL-EXPLORE, un marco híbrido de aprendizaje y planificación que mejora la exploración multi-robot en entornos dinámicos mediante un modelo de fidelidad de ejecución compartido que acopla la asignación de tareas con la navegación local, optimizando la coordinación, reduciendo la redundancia y adaptándose autónomamente a obstáculos no estacionarios.

Ning Liu, Sen Shen, Zheng Li, Sheng Liu, Dongkun Han, Shangke Lyu, Thomas Braunl2026-03-10💻 cs

OSExpert: Computer-Use Agents Learning Professional Skills via Exploration

El artículo presenta OSExpert, un agente de uso informático que supera las limitaciones actuales mediante un algoritmo de búsqueda en profundidad (GUI-DFS) para explorar y verificar funciones, construyendo un conjunto de habilidades que mejora significativamente el rendimiento y la eficiencia en tareas complejas.

Jiateng Liu, Zhenhailong Wang, Rushi Wang, Bingxuan Li, Jeonghwan Kim, Aditi Tiwari, Pengfei Yu, Denghui Zhang, Heng Ji2026-03-10💻 cs

Emergence is Overrated: AGI as an Archipelago of Experts

Este artículo desafía la noción de que la inteligencia requiere representaciones unificadas y compresión eficiente, argumentando en su lugar que tanto la inteligencia humana como la AGI deben concebirse como un "archipiélago de expertos" compuesto por módulos especializados sin principios unificadores.

Daniel Kilov2026-03-10💬 cs.CL

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

El paper introduce \$OneMillion-Bench, un nuevo conjunto de 400 tareas curadas por expertos en cinco dominios profesionales que evalúa la fiabilidad y profundidad de los agentes de lenguaje en escenarios reales de alto impacto económico, superando las limitaciones de las pruebas actuales mediante una evaluación basada en criterios rigurosos de precisión factual, coherencia lógica y cumplimiento profesional.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval

El artículo presenta CMMR-VLN, un marco de navegación visual y lingüística que mejora el rendimiento de los agentes LLM en escenarios complejos mediante una memoria multimodal estructurada, recuperación de experiencias pasadas y una estrategia de actualización reflexiva, logrando mejoras significativas en las tasas de éxito tanto en simulación como en pruebas reales.

Haozhou Li, Xiangyu Dong, Huiyan Jiang, Yaoming Zhou, Xiaoguang Ma2026-03-10💻 cs

Aero-Promptness: Drag-Aware Aerodynamic Manipulability for Propeller-driven Vehicles

Este trabajo presenta el Marco de Manipulabilidad Aerodinámica Consciente de la Resistencia (DAAM), una formulación geométrica que utiliza una métrica Riemanniana para resolver la redundancia en vehículos multirotor, optimizando la asignación de fuerzas generales mientras penaliza explícitamente la saturación por resistencia aerodinámica y las pérdidas de empuje a bajas revoluciones.

Antonio Franchi2026-03-10🔢 math

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

El artículo presenta ViSA, un marco mejorado para la navegación aérea visión-lenguaje que utiliza un razonamiento visual-espacial de tres fases para permitir que los modelos de lenguaje visual realicen inferencias directas en planos de imagen sin entrenamiento adicional, logrando una mejora del 70,3% en la tasa de éxito frente a los métodos actuales.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

El artículo presenta PIRA-Bench, un nuevo benchmark y la metodología PIRF diseñados para evaluar y capacitar a agentes de GUI multimodales para transitar de un paradigma reactivo a uno proactivo, permitiéndoles anticipar las intenciones del usuario a partir de entradas visuales continuas y ruidosas.

Yuxiang Chai, Shunye Tang, Han Xiao, Rui Liu, Hongsheng Li2026-03-10💻 cs

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

El artículo propone FedMomentum, un marco novedoso que preserva el impulso de entrenamiento en el ajuste fino federado de modelos de lenguaje mediante la agregación estructurada de adaptaciones LoRA utilizando descomposición de valores singulares (SVD), superando así las limitaciones de ruido y expresividad estructural de los métodos existentes para lograr una convergencia más rápida y un rendimiento superior.

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Alignment--Process--Outcome: Rethinking How AIs and Humans Collaborate

Este artículo propone un marco unificado que, mediante las lentes de la tarea y la intención, reinterpreta la colaboración entre humanos e IA como una dinámica compleja donde la alineación, el proceso y el resultado no guardan una relación lineal simple, sino que interactúan de formas estructurales diversas en distintos contextos de interacción.

Haichang Li, Anjun Zhu, Arpit Narechania2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Este artículo presenta MambaDance, un nuevo enfoque de generación de danza que sustituye a los transformadores por un modelo de difusión basado en Mamba e incorpora una representación de ritmo basada en Gaussianas para producir movimientos sincronizados con la música que capturan eficazmente las características secuenciales y rítmicas del baile.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

El artículo presenta DyLLM, un marco de inferencia sin entrenamiento que acelera la generación de modelos de lenguaje de difusión enmascarada al identificar y calcular selectivamente solo los tokens salientes, logrando un aumento de hasta 9,6 veces en el rendimiento sin comprometer la precisión.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

El artículo presenta GCGNet, una red generativa basada en grafos que mejora la predicción de series temporales con variables exógenas al modelar conjuntamente las correlaciones temporales y de canal mediante un generador variacional, un alineador de estructura de grafos y un refinador, logrando así mayor robustez ante el ruido y superando a los métodos actuales en múltiples conjuntos de datos reales.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Este trabajo presenta un marco multimodal robusto basado en Transformers con atención cruzada segura y dropout de modalidades, que combina pérdidas focales y votación suave por ventanas deslizantes para superar los desafíos de oclusiones, datos faltantes y desequilibrio de clases en el reconocimiento de emociones del desafío ABAW, logrando un 60,79 % de precisión en el conjunto de validación Aff-Wild2.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

El artículo presenta CDRRM, un marco de modelado de recompensas que genera rúbricas interpretables mediante un paradigma de contraste y síntesis para superar los sesgos y la dependencia de anotaciones costosas, logrando un rendimiento superior con alta eficiencia de datos.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

S2S-FDD: Bridging Industrial Time Series and Natural Language for Explainable Zero-shot Fault Diagnosis

El artículo presenta S2S-FDD, un marco de diagnóstico de fallos explicable y de cero disparos que cierra la brecha semántica entre las señales de series temporales industriales y los modelos de lenguaje grande mediante la conversión de datos en resúmenes naturales y un método de diagnóstico en árbol con retroalimentación humana.

Baoxue Li, Chunhui Zhao2026-03-10💻 cs

Speed3R: Sparse Feed-forward 3D Reconstruction Models

Speed3R es un modelo de reconstrucción 3D feed-forward que supera el cuello de botella computacional de la atención densa mediante un mecanismo de atención dual inspirado en la estructura desde el movimiento, logrando una aceleración de inferencia de 12,4 veces en secuencias de 1000 vistas con un mínimo compromiso en la precisión geométrica.

Weining Ren, Xiao Tan, Kai Han2026-03-10💻 cs

← Anterior Siguiente →