Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

Este artículo establece un nuevo estándar de evaluación para el Aprendizaje por Refuerzo Multiagente (MARL) en la gestión energética urbana mediante el entorno CityLearn, demostrando que los enfoques de entrenamiento descentralizado superan a los centralizados y proponiendo nuevas métricas clave que revelan la resiliencia y sostenibilidad de las políticas aprendidas.

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

RAmmStein: Regime Adaptation in Mean-reverting Markets with Stein Thresholds -- Optimal Impulse Control in Concentrated AMMs

El artículo presenta RAmmStein, un método de aprendizaje por refuerzo profundo que resuelve el problema de control óptimo en la provisión de liquidez concentrada mediante la adaptación a la dinámica de reversión a la media del mercado, logrando una mayor eficiencia de capital y rentabilidad neta al reducir drásticamente la frecuencia de rebalanceo y los costos operativos en comparación con las estrategias heurísticas existentes.

Pranay Anchuri2026-03-10🤖 cs.LG

Benchmarking GNN Models on Molecular Regression Tasks with CKA-Based Representation Analysis

Este estudio realiza una evaluación sistemática de cuatro arquitecturas de redes neuronales gráficas (GNN) en tareas de regresión molecular, demostrando que un marco de fusión jerárquica que combina GNN con huellas dactilares moleculares supera consistentemente a los modelos individuales y revelando mediante el análisis de alineación de núcleo centrado (CKA) que las representaciones de GNN y huellas dactilares ocupan espacios latentes altamente independientes.

Rajan, Ishaan Gupta2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

El artículo presenta MrBERT, una familia de codificadores multilingües modernos optimizados mediante adaptación de vocabulario, dominio y dimensión que logran resultados de vanguardia en tareas específicas de catalán y español, así como en dominios especializados como el biomédico y legal, al tiempo que incorporan aprendizaje de representaciones matryoshka para reducir costos de inferencia y almacenamiento.

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Este artículo presenta un enfoque para mejorar la relevancia de la búsqueda en la App Store mediante el uso de un modelo de lenguaje grande (LLM) especializado y ajustado para generar millones de etiquetas de relevancia textual, lo que permitió optimizar simultáneamente la relevancia conductual y textual, resultando en un aumento estadísticamente significativo del 0,24% en la tasa de conversión global y mejoras notables en consultas de cola.

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat Sundaranatha2026-03-10🤖 cs.LG

End-to-end Differentiable Calibration and Reconstruction for Optical Particle Detectors

Este artículo presenta el primer simulador de detectores de partículas ópticas totalmente diferenciable, que unifica la simulación, la calibración y la reconstrucción en un único marco basado en gradientes, logrando una mayor precisión y eficiencia computacional mientras simplifica los pipelines de análisis tradicionales.

Omar Alterkait, César Jesús-Valls, Ryo Matsumoto, Patrick de Perio, Kazuhiro Terao2026-03-10🤖 cs.LG

Attn-QAT: 4-Bit Attention With Quantization-Aware Training

Este artículo presenta Attn-QAT, el primer estudio sistemático de entrenamiento consciente de la cuantización (QAT) para atención a 4 bits, que logra una inferencia estable y rápida en GPUs FP4 mediante la corrección de la recomputación de precisión y los cálculos de gradiente, eliminando la necesidad de heurísticas para mitigar valores atípicos.

Peiyuan Zhang, Matthew Noto, Wenxuan Tan, Chengquan Jiang, Will Lin, Wei Zhou, Hao Zhang2026-03-10🤖 cs.LG

How Well Do Multimodal Models Reason on ECG Signals?

Este trabajo presenta un marco reproducible y escalable para evaluar el razonamiento de modelos multimodales en señales de ECG, descomponiéndolo en percepción (verificación empírica de patrones mediante código) y deducción (alineación lógica con criterios clínicos estructurados) para superar las limitaciones de las métricas actuales.

Maxwell A. Xu, Harish Haresamudram, Catherine W. Liu, Patrick Langer, Jathurshan Pradeepkumar, Wanting Mao, Sunita J. Ferns, Aradhana Verma, Jimeng Sun, Paul Schmiedmayer, Xin Liu, Daniel McDuff, Emily B. Fox, James M. Rehg2026-03-10🤖 cs.LG

Personalized Multi-Agent Average Reward TD-Learning via Joint Linear Approximation

Este artículo presenta un algoritmo de aprendizaje TD multiagente con recompensa promedio que, mediante la estimación conjunta de un subespacio lineal compartido y cabezales locales, logra una aceleración lineal al filtrar señales conflictivas en entornos heterogéneos, superando desafíos analíticos derivados del muestreo markoviano y la interconexión de errores.

Leo Muxing Wang, Pengkun Yang, Lili Su2026-03-10🤖 cs.LG

Embedding interpretable 1\ell_1-regression into neural networks for uncovering temporal structure in cell imaging

Este artículo propone integrar un modelo de regresión vectorial autorregresiva (VAR) con regularización 1\ell_1 dentro de un autoencoder convolucional para extraer dinámicas temporales esparsas e interpretables de imágenes de calcio de dos fotones, combinando la capacidad de reducción de dimensionalidad de las redes neuronales con la claridad estadística de la regresión esparsa.

Fabian Kabus, Maren Hackenberg, Julia Hindel, Thibault Cholvin, Antje Kilias, Thomas Brox, Abhinav Valada, Marlene Bartos, Harald Binder2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Este trabajo presenta CGL, un marco de aprendizaje continuo para agentes de interfaces gráficas que combina ajuste fino supervisado y aprendizaje por refuerzo mediante un mecanismo de ajuste dinámico y una estrategia de cirugía de gradientes para equilibrar la adaptación a nuevas tareas con la retención de conocimientos previos, validado mediante el nuevo benchmark AndroidControl-CL.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG