Personalized Multi-Agent Average Reward TD-Learning via Joint Linear Approximation

Este artículo presenta un algoritmo de aprendizaje TD multiagente con recompensa promedio que, mediante la estimación conjunta de un subespacio lineal compartido y cabezales locales, logra una aceleración lineal al filtrar señales conflictivas en entornos heterogéneos, superando desafíos analíticos derivados del muestreo markoviano y la interconexión de errores.

Leo Muxing Wang, Pengkun Yang, Lili Su2026-03-10🤖 cs.LG

Embedding interpretable 1\ell_1-regression into neural networks for uncovering temporal structure in cell imaging

Este artículo propone integrar un modelo de regresión vectorial autorregresiva (VAR) con regularización 1\ell_1 dentro de un autoencoder convolucional para extraer dinámicas temporales esparsas e interpretables de imágenes de calcio de dos fotones, combinando la capacidad de reducción de dimensionalidad de las redes neuronales con la claridad estadística de la regresión esparsa.

Fabian Kabus, Maren Hackenberg, Julia Hindel, Thibault Cholvin, Antje Kilias, Thomas Brox, Abhinav Valada, Marlene Bartos, Harald Binder2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Este trabajo presenta CGL, un marco de aprendizaje continuo para agentes de interfaces gráficas que combina ajuste fino supervisado y aprendizaje por refuerzo mediante un mecanismo de ajuste dinámico y una estrategia de cirugía de gradientes para equilibrar la adaptación a nuevas tareas con la retención de conocimientos previos, validado mediante el nuevo benchmark AndroidControl-CL.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

Information Routing in Atomistic Foundation Models: How Task Alignment and Equivariance Shape Linear Disentanglement

El estudio introduce la descomposición de sondas composicionales (CPD) para demostrar que la alineación de la tarea de entrenamiento y la arquitectura equivariante determinan un gradiente de accesibilidad lineal en la información geométrica de los modelos fundamentales atómicos, revelando cómo la información se enruta selectivamente según su tipo de simetría.

Joshua Steier2026-03-10🤖 cs.LG

XInsight: Integrative Stage-Consistent Psychological Counseling Support Agents for Digital Well-Being

El artículo presenta XInsight, un marco de agentes multi-sistema inspirado en la consejería psicológica que integra el paradigma Exploración-Insight-Acción y un ciclo de razonamiento-intervención-reflexión para ofrecer apoyo terapéutico estructurado y transparente en plataformas web, validado mediante la nueva métrica XInsight-Bench.

Fei Wang, Jiangnan Yang, Junjie Chen, Yuxin Liu, Kun Li, Yanyan Wei, Dan Guo, Meng Wang2026-03-10🤖 cs.LG

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

El artículo presenta la "Capa Isotónica", un marco diferenciable universal que integra ajustes lineales por tramos en arquitecturas neuronales para calibrar y eliminar sesgos en sistemas de recomendación a gran escala, logrando una mayor precisión predictiva y consistencia en el ranking mediante la descomposición de objetivos y la adaptación contextual.

Hailing Cheng, Yafang Yang, Hemeng Tao, Fengyu Zhang2026-03-10🤖 cs.LG

How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

Este trabajo identifica el mecanismo "P0 Sink Circuit", que permite a los modelos de lenguaje grandes reconocer la posición cero y generar un "sumidero de atención" sin información semántica, sugiriendo además que su evolución temprana durante el entrenamiento podría servir como indicador para rastrear la convergencia del preentrenamiento.

Runyu Peng, Ruixiao Li, Mingshu Chen, Yunhua Zhou, Qipeng Guo, Xipeng Qiu2026-03-10🤖 cs.LG

Hierarchical Latent Structures in Data Generation Process Unify Mechanistic Phenomena across Scale

Este trabajo demuestra que las estructuras jerárquicas en el proceso de generación de datos, modeladas mediante gramáticas context-free probabilísticas, actúan como el factor unificador que explica la emergencia de fenómenos mecanísticos diversos en los modelos de lenguaje, ofreciendo además corpora sintéticos eficientes para futuras investigaciones en interpretabilidad.

Jonas Rohweder, Subhabrata Dutta, Iryna Gurevych2026-03-10🤖 cs.LG

Hierarchical Embedding Fusion for Retrieval-Augmented Code Generation

El artículo presenta Hierarchical Embedding Fusion (HEF), un enfoque de dos etapas que comprime representaciones de repositorios en una jerarquía de vectores densos para generar tokens pseudo-entrenados, logrando una precisión comparable a los métodos basados en fragmentos de código con una latencia significativamente reducida en la generación de código asistida por recuperación.

Nikita Sorokin, Ivan Sedykh, Valentin Malykh2026-03-10🤖 cs.LG

FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures

El artículo presenta FuzzingRL, un enfoque que combina pruebas de fuzzing y ajuste fino por refuerzo adversarial para generar automáticamente preguntas diseñadas para inducir errores en Modelos de Visión y Lenguaje (VLM), revelando así sus vulnerabilidades y reduciendo significativamente su precisión.

Jiajun Xu, Jiageng Mao, Ang Qi, Weiduo Yuan, Alexander Romanus, Helen Xia, Vitor Campagnolo Guizilini, Yue Wang2026-03-10🤖 cs.LG

Scale Dependent Data Duplication

Este artículo demuestra que la duplicación de datos es dependiente de la escala, ya que a medida que aumenta la capacidad del modelo, los duplicados semánticos se comportan como duplicados exactos, lo que degrada el rendimiento y desvía las leyes de escalado, permitiendo así derivar nuevas leyes para predecir y corregir estos efectos.

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho2026-03-10🤖 cs.LG

Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection

Este artículo presenta un marco de puntuación de confianza normalizada y autoevaluación que permite detectar errores en modelos de lenguaje grandes, revelando que el ajuste fino supervisado mejora la calibración de la confianza mientras que los métodos de aprendizaje por refuerzo la degradan, y propone una solución de distilación para restaurar la fiabilidad en modelos entrenados con RL.

Xie Xiaohu, Liu Xiaohu, Yao Benjamin2026-03-10🤖 cs.LG

Structure-Aware Set Transformers: Temporal and Variable-Type Attention Biases for Asynchronous Clinical Time Series

El artículo presenta STAR Set Transformer, un modelo que mejora la predicción en series temporales clínicas asíncronas mediante la incorporación de sesgos de atención suaves para la localidad temporal y la afinidad entre tipos de variables, superando a los enfoques basados en cuadrículas y conjuntos de puntos en tareas de cuidados intensivos.

Joohyung Lee, Kwanhyung Lee, Changhun Kim, Eunho Yang2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

Este artículo aborda los desafíos del aprendizaje por refuerzo multiagente en la asignación de recursos para redes V2X mediante la creación de un conjunto de tareas de benchmarking controladas y datos generados en SUMO, revelando que la generalización y robustez de las políticas son los obstáculos principales y proporcionando recursos de código abierto para futuras investigaciones.

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG