CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

El artículo presenta CDRRM, un marco de modelado de recompensas que genera rúbricas interpretables mediante un paradigma de contraste y síntesis para superar los sesgos y la dependencia de anotaciones costosas, logrando un rendimiento superior con alta eficiencia de datos.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

El artículo presenta SFed-LoRA, un marco de aprendizaje federado que introduce un factor de escala óptimo para mitigar la inestabilidad y el colapso de gradientes en la adaptación de bajo rango (LoRA) causados por la agregación de múltiples clientes, permitiendo así una adaptación de rango alto estable y eficiente sin alterar la arquitectura del modelo.

Jiayu Huang, Xiaohu Wu, Tiantian He, Qicheng Lao2026-03-10🤖 cs.LG

Deterministic Differentiable Structured Pruning for Large Language Models

Este artículo presenta la Eliminación Estructurada Determinista y Diferenciable (DDP), un método que optimiza máscaras deterministas para reducir el costo de inferencia de los modelos de lenguaje grandes sin la desviación entre entrenamiento y prueba inherente a los enfoques estocásticos anteriores, logrando una pérdida de rendimiento mínima y aceleraciones de inferencia significativas.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Este artículo presenta el marco DC-W2S, que entrena modelos de recompensa de proceso fiables para el razonamiento biológico mediante la combinación de consenso interno y vecinal para filtrar señales de supervisión ruidosas, demostrando que la curaduría estratégica de datos es más efectiva que el entrenamiento indiscriminado en grandes conjuntos de datos.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Tau-BNO: Brain Neural Operator for Tau Transport Model

El artículo presenta Tau-BNO, un marco de operador neuronal que actúa como sustituto computacional eficiente del Modelo de Transporte de Redes (NTM) para simular rápidamente la propagación de la proteína tau en el cerebro, superando las limitaciones de velocidad de los modelos mecánicos tradicionales y logrando una alta precisión predictiva que facilita el descubrimiento de nuevos mecanismos biológicos.

Nuutti Barron, Heng Rao, Urmi Saha, Yu Gu, Zhenghao Liu, Ge Yu, Defu Yang, Ashish Raj, Minghan Chen2026-03-10🤖 cs.LG

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

El artículo presenta ROMI, un nuevo enfoque de aprendizaje por refuerzo offline basado en modelos que supera las limitaciones de sobreconservadurismo e inestabilidad de métodos anteriores como RAMBO mediante un aprendizaje de modelo robusto consciente del valor y una ponderación adaptativa diferenciable implícitamente, logrando así un rendimiento superior en conjuntos de datos estándar.

Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

El artículo presenta SaiVLA-0, una arquitectura de visión-lenguaje-acción inspirada en la neurociencia que utiliza un diseño tripartito (Cerebro, Puente y Cerebelo) para lograr un control adaptable, eficiente en cómputo y modular, demostrando mejoras significativas en tiempo de entrenamiento y tasas de éxito en tareas robóticas.

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same

El artículo presenta TRIAGE, un marco ligero que descompone la incertidumbre en componentes aleatorios y epistémicos para activar respuestas correctivas específicas (recuperación de observaciones o moderación de control) y optimizar la capacidad del modelo, logrando mejoras significativas en la manipulación robótica y la eficiencia de la percepción adaptativa.

Divake Kumar, Sina Tayebati, Devashri Naik, Patrick Poggi, Amanda Sofie Rios, Nilesh Ahuja, Amit Ranjan Trivedi2026-03-10🤖 cs.LG

Explainable Condition Monitoring via Probabilistic Anomaly Detection Applied to Helicopter Transmissions

Este artículo presenta un método novedoso de monitoreo de condiciones basado en la detección probabilística de anomalías utilizando únicamente datos saludables, el cual incorpora cuantificación de incertidumbre y herramientas explicativas para la toma de decisiones en aplicaciones críticas, validándose con éxito en un conjunto de datos de transmisiones de helicópteros y un benchmark público.

Aurelio Raffa Ugolini, Jessica Leoni, Valentina Breschi, Damiano Paniccia, Francesco Aldo Tucci, Luigi Capone, Mara Tanelli2026-03-10🤖 cs.LG

Mitigating Homophily Disparity in Graph Anomaly Detection: A Scalable and Adaptive Approach

El artículo presenta SAGAD, un marco escalable y adaptativo para la detección de anomalías en grafos que mitiga la disparidad de homofilia y mejora la eficiencia mediante el uso de filtros de Chebyshev, fusión adaptativa guiada por la estructura del subgrafo anómalo y una pérdida de preferencia de frecuencia, logrando un rendimiento superior en múltiples benchmarks.

Yunhui Liu, Qizhuo Xie, Yinfeng Chen, Xudong Jin, Tao Zheng, Bin Chong, Tieke He2026-03-10🤖 cs.LG

Training event-based neural networks with exact gradients via Differentiable ODE Solving in JAX

El marco Eventax, implementado en JAX, resuelve el compromiso entre flexibilidad y precisión en el entrenamiento de redes neuronales de espigas al combinar solucionadores numéricos de EDO diferenciables con manejo de eventos, permitiendo calcular gradientes exactos para modelos neuronales arbitrarios definidos por ecuaciones diferenciales.

Lukas König, Manuel Kuhn, David Kappel, Anand Subramoney2026-03-10🤖 cs.LG

C2^2FG: Control Classifier-Free Guidance via Score Discrepancy Analysis

Este artículo presenta C²FG, un método de guía libre de clasificadores que, fundamentado en un análisis teórico de las discrepancias de puntuación, ajusta dinámicamente la fuerza de la guía mediante una función de decaimiento exponencial para mejorar la generación en modelos de difusión sin necesidad de reentrenamiento.

Jiayang Gao, Tianyi Zheng, Jiayang Zou, Fengxiang Yang, Shice Liu, Luyao Fan, Zheyu Zhang, Hao Zhang, Jinwei Chen, Peng-Tao Jiang, Bo Li, Jia Wang2026-03-10🤖 cs.LG

Are We Winning the Wrong Game? Revisiting Evaluation Practices for Long-Term Time Series Forecasting

Este artículo critica el enfoque actual de la predicción de series temporales a largo plazo, que prioriza la reducción marginal de métricas de error puntuales en tablas de clasificación, y propone una evaluación multidimensional que integre la fidelidad estadística, la coherencia estructural y la relevancia para la toma de decisiones para alinear el progreso de la investigación con los objetivos reales de la predicción.

Thanapol Phungtua-eng, Yoshitaka Yamamoto2026-03-10🤖 cs.LG