Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

El artículo presenta DialTree, un marco de aprendizaje por refuerzo basado en árboles que descubre autónomamente estrategias de ataque adversarial multi-turno más efectivas, superando significativamente a los métodos existentes al explorar dinámicas conversacionales complejas sin necesidad de datos curados manualmente.

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

Wasserstein Gradient Flows for Scalable and Regularized Barycenter Computation

Este artículo presenta un método escalable y regularizado para el cálculo de barycentros de Wasserstein mediante flujos de gradiente, que supera las limitaciones de los enfoques existentes al permitir el uso de mini-lotes, incorporar regularización modular e integrar información supervisada, logrando así un nuevo estado del arte en tareas de adaptación de dominio.

Eduardo Fernandes Montesuma, Yassir Bendou, Mike Gartrell2026-03-10🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Este trabajo propone un paradigma de preentrenamiento basado en un modelo inverso de dinámica propioceptiva entrenado con datos de exploración agnósticos a la tarea para inicializar redes actor-crítico, logrando mejoras significativas en la eficiencia de muestras y el rendimiento en diversas tareas de locomoción robótica en comparación con la inicialización aleatoria.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco Hutter2026-03-10🤖 cs.LG

Explainable Heterogeneous Anomaly Detection in Financial Networks via Adaptive Expert Routing

Este artículo presenta un marco de aprendizaje gráfico adaptativo que detecta anomalías financieras mediante la descomposición de mecanismos específicos (como choques de precios o crisis de liquidez) y la asignación de pesos interpretables para identificar las causas subyacentes, logrando una detección temprana superior y una guía accionable para la gestión de riesgos.

Zan Li, Rui Fan2026-03-10🤖 cs.LG

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

Este trabajo propone un marco de razonamiento basado en la Optimización de Políticas Relativa a Permutaciones (PRPO) que, al codificar la invariancia a la permutación de columnas como un prior estructural, desbloquea la capacidad de razonamiento numérico de los modelos de lenguaje grandes para la predicción en tablas, logrando un rendimiento superior incluso frente a modelos mucho más grandes en escenarios de cero disparos.

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG

A Unified Framework for Zero-Shot Reinforcement Learning

Este trabajo presenta un marco unificado y formal para el aprendizaje por refuerzo de cero disparos (zero-shot RL) que organiza el panorama algorítmico mediante una taxonomía basada en representaciones y paradigmas de aprendizaje, y descompone los límites de error en componentes de inferencia, recompensa y aproximación para facilitar comparaciones rigurosas entre métodos.

Jacopo Di Ventura, Jan Felix Kleuker, Aske Plaat, Thomas Moerland2026-03-10🤖 cs.LG

SwiftTS: A Swift Selection Framework for Time Series Pre-trained Models via Multi-task Meta-Learning

El artículo presenta SwiftTS, un marco de selección ágil para modelos preentrenados de series temporales que utiliza un aprendizaje guiado con meta-aprendizaje multi-tarea y una arquitectura de doble codificador para predecir el rendimiento de los modelos en conjuntos de datos no vistos sin necesidad de un ajuste fino costoso.

Tengxue Zhang, Biao Ouyang, Yang Shu, Xinyang Chen, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Continual Low-Rank Adapters for LLM-based Generative Recommender Systems

El artículo presenta PESO, un método de adaptación continua para sistemas de recomendación generativa basados en LLM que utiliza un regularizador proximal en LoRA para equilibrar eficazmente la adaptación a nuevos comportamientos de los usuarios y la preservación de conocimientos relevantes, superando así a los métodos existentes.

Hyunsik Yoo, Ting-Wei Li, SeongKu Kang, Zhining Liu, Charlie Xu, Qilin Qi, Hanghang Tong2026-03-10🤖 cs.LG

Balancing Interpretability and Performance in Motor Imagery EEG Classification: A Comparative Study of ANFIS-FBCSP-PSO and EEGNet

Este estudio compara un enfoque de razonamiento fuzzy interpretable (ANFIS-FBCSP-PSO) con un modelo de aprendizaje profundo (EEGNet) para la clasificación de EEG de imaginación motora, revelando que el primero ofrece un mejor rendimiento dentro del sujeto mientras que el segundo demuestra una mayor generalización entre sujetos, proporcionando así directrices prácticas para seleccionar sistemas BCI según si se prioriza la interpretabilidad o la robustez.

Farjana Aktar, Mohd Ruhul Ameen, Akif Islam, Md Ekramul Hamid2026-03-10🤖 cs.LG

Towards Efficient Federated Learning of Networked Mixture-of-Experts for Mobile Edge Computing

Este trabajo propone el sistema de Mezcla de Expertos en Red (NMoE) y un marco de aprendizaje federado que combina aprendizaje supervisado y auto-supervisado para permitir la inferencia colaborativa y el entrenamiento eficiente de modelos de inteligencia artificial en dispositivos de borde con recursos limitados, preservando la privacidad y optimizando las comunicaciones.

Song Gao, Songyang Zhang, Shusen Jing, Shuai Zhang, Xiangwei Zhou, Yue Wang, Zhipeng Cai2026-03-10🤖 cs.LG

FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels

El artículo presenta FATE, una nueva serie de benchmarks en álgebra formal que abarca desde ejercicios universitarios hasta problemas de investigación avanzada, revelando que los modelos de lenguaje actuales tienen un rendimiento muy limitado en esta área, especialmente en la formalización de su razonamiento natural.

Jiedong Jiang, Wanyi He, Yuefeng Wang, Guoxiong Gao, Yongle Hu, Jingting Wang, Nailin Guan, Peihao Wu, Chunbo Dai, Liang Xiao, Bin Dong2026-03-10🤖 cs.LG

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

El artículo presenta a Jr. AI Scientist, un sistema autónomo que imita el flujo de trabajo de un investigador novato para generar contribuciones científicas válidas a partir de artículos base, demostrando su superioridad sobre sistemas automatizados anteriores mientras identifica sus limitaciones actuales y los riesgos asociados para la integridad de la investigación académica.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

Adaptive Multi-view Graph Contrastive Learning via Fractional-order Neural Diffusion Networks

Este artículo presenta un marco de aprendizaje contrastivo en grafos libre de aumentos que utiliza redes de difusión neuronal de orden fraccionario para generar automáticamente un espectro continuo de vistas adaptativas mediante el aprendizaje del orden derivativo, superando así a los métodos actuales en la captura de patrones estructurales multiescala.

Yanan Zhao, Feng Ji, Jingyang Dai, Jiaze Ma, Keyue Jiang, Kai Zhao, Wee Peng Tay2026-03-10🤖 cs.LG