Latent Speech-Text Transformer

El artículo presenta el Transformer de Voz-Texto Latente (LST), un modelo que agrupa los tokens de voz en parches latentes para equilibrar la granularidad con el texto y mejorar la eficiencia computacional, logrando así un rendimiento superior tanto en tareas de voz como de texto en comparación con los modelos autoregresivos tradicionales.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

El artículo presenta AlphaApollo, un sistema de razonamiento agéntico que aborda las limitaciones en la resolución de problemas complejos y la evolución durante la inferencia mediante la orquestación de interacciones multi-turno, aprendizaje por refuerzo y un ciclo de evolución con verificación asistida por herramientas, logrando mejoras significativas en diversos benchmarks matemáticos.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Este artículo presenta DuNe, un marco de aprendizaje dual que aborda el desafío de la generalización de dominio en la segmentación semántica 3D de LiDAR bajo etiquetas ruidosas, logrando un rendimiento superior al estado del arte en múltiples conjuntos de datos mediante la consistencia de características y el filtrado basado en confianza.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer Stiefelhagen2026-03-11🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

El artículo presenta RECODE, un marco agéntico que mejora el razonamiento visual en modelos multimodales al transformar la percepción de imágenes estructuradas en código ejecutable verificable mediante un proceso de generación, selección y refinamiento iterativo, logrando así un rendimiento superior en benchmarks como CharXiv y ChartQA.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi2026-03-11🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

El artículo presenta RL-100, un marco de aprendizaje por refuerzo en el mundo real basado en políticas de difusión que unifica la imitación y el refuerzo para lograr un control robótico de alta frecuencia y un rendimiento del 100% en diversas tareas complejas, superando a operadores expertos y demostrando una robustez sin precedentes en despliegues reales.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu2026-03-11🤖 cs.AI

Bradley-Terry Policy Optimization for Generative Preference Modeling

Este trabajo presenta Bradley-Terry Policy Optimization (BTPO), un nuevo método que deriva un estimador de gradiente consistente para optimizar modelos de lenguaje generativos con razonamiento paso a paso en tareas de preferencia humana no verificables, superando así las limitaciones de los enfoques heurísticos anteriores.

Shengyu Feng, Yun He, Shuang Ma, Beibin Li, Yuanhao Xiong, Songlin Li, Karishma Mandyam, Julian Katz-Samuels, Shengjie Bi, Licheng Yu, Hejia Zhang, Karthik Abinav Sankararaman, Han Fang, Yiming Yang, Manaal Faruqui2026-03-11🤖 cs.LG

Personalized Collaborative Learning with Affinity-Based Variance Reduction

El artículo presenta AffPCL, un marco de aprendizaje colaborativo personalizado que utiliza mecanismos de corrección de sesgo e importancia para lograr una reducción adaptativa de la complejidad de muestreo en entornos heterogéneos, interpolando automáticamente entre la aceleración lineal y el aprendizaje independiente sin requerir conocimiento previo de la heterogeneidad del sistema.

Chenyu Zhang, Navid Azizan2026-03-11🤖 cs.LG

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

El artículo presenta FALCON, un nuevo paradigma que mejora los modelos de visión-idioma-acción inyectando tokens espaciales 3D ricos derivados de modelos fundacionales en la cabeza de acción, logrando un rendimiento superior y una mayor robustez en tareas del mundo real sin comprometer el razonamiento lingüístico.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

El artículo presenta GraphKeeper, un método novedoso para el aprendizaje incremental de dominio en grafos que aborda el olvido catastrófico mediante la desensamblaje y preservación del conocimiento, logrando resultados superiores al estado del arte y una integración flexible con modelos fundamentales de grafos.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin Li2026-03-11🤖 cs.AI

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

Este artículo presenta LTSV, un método ligero para la valoración de datos en series temporales que aprovecha el ajuste fino en contexto de modelos fundacionales para estimar la contribución de las muestras de manera eficiente y precisa, superando las limitaciones computacionales y de dependencia temporal de los enfoques tradicionales.

Shunyu Wu, Tianyue Li, Yixuan Leng, Jingyi Suo, Jian Lou, Dan Li, See-Kiong Ng2026-03-11🤖 cs.AI

TSFM in-context learning for time-series classification of bearing-health status

Este artículo presenta un método de aprendizaje en contexto basado en modelos fundacionales de series temporales para clasificar el estado de salud de rodamientos en motores de servoprensas sin necesidad de ajuste fino, demostrando su eficacia en diversas condiciones operativas y su potencial para sistemas de mantenimiento como servicio.

Michel Tokic, Slobodan Djukanovic, Anja von Beuningen, Cheng Feng2026-03-11🤖 cs.AI

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

Este estudio presenta el Decoder-DeepONet (DDON), un modelo de aprendizaje automático interpretable basado en la arquitectura de aprendizaje de operadores que supera a los métodos anteriores para reconstruir perfiles de campo eléctrico en descargas a partir de señales EFISH, logrando mayor precisión, generalización y robustez ante datos incompletos.

Zhijian Yang, Edwin Setiadi Sugeng, Mhedine Alicherif, Tat Loon Chng2026-03-11🤖 cs.LG

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

El artículo presenta ELERAG, una arquitectura de generación aumentada por recuperación (RAG) que integra la vinculación de entidades y una estrategia de reordenamiento híbrida para mejorar significativamente la precisión factual en sistemas de preguntas y respuestas educativas en italiano, demostrando su superioridad sobre métodos convencionales en dominios específicos.

Francesco Granata, Francesco Poggi, Misael Mongiovì2026-03-11🤖 cs.AI

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

El artículo presenta ADHint, un método de aprendizaje por refuerzo que integra dinámicamente la dificultad de las muestras para ajustar la proporción de pistas y modular los gradientes, logrando así un equilibrio superior entre exploración e imitación que mejora la capacidad de razonamiento y la generalización fuera de distribución.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang Yang2026-03-11🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

El artículo presenta la Inversión Textual Direccional (DTI), un método que mejora la personalización de generación de imágenes texto-a-imagen optimizando únicamente la dirección de los tokens en una hiperesfera para evitar la inflación de la norma de los embeddings, lo que resulta en una mayor fidelidad al prompt, una mejor contextualización y una interpolación semántica coherente.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung Shim2026-03-11🤖 cs.LG

Do Spatial Descriptors Improve Multi-DoF Finger Movement Decoding from HD sEMG?

Este estudio demuestra que, aunque el método de campo de bloque basado en descriptores lineales multicanal (MLD-BFM) logra la mejor precisión en la decodificación continua de cinco grados de libertad de los dedos mediante sEMG de alta densidad, su ventaja sobre las características temporales convencionales no es estadísticamente significativa, lo que sugiere que la resolución espacial inherente a las grabaciones densas es más crítica que los descriptores espaciales explícitos para esta tarea.

Ricardo Gonçalves Molinari, Leonardo Abdala Elias2026-03-11🤖 cs.LG