MJ1: Multimodal Judgment via Grounded Verification

El artículo presenta MJ1, un juez multimodal de 3B parámetros entrenado con aprendizaje por refuerzo que utiliza una cadena de verificación fundamentada y una recompensa de consistencia contrafactual para lograr una precisión superior a modelos mucho más grandes en la evaluación de razonamiento y edición de imágenes, demostrando que la verificación fundamentada mejora significativamente el juicio multimodal sin aumentar la escala del modelo.

Bhavesh Kumar, Dylan Feng, Leonard Tang2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

SmartThinker es un nuevo método basado en GRPO que calibra progresivamente la longitud del razonamiento en cadena de pensamiento mediante la estimación dinámica de la longitud óptima y la modulación de la recompensa, logrando una compresión significativa de la longitud de respuesta sin sacrificar, e incluso mejorando, la precisión en tareas complejas.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

Amortizing Maximum Inner Product Search with Learned Support Functions

Este artículo propone un enfoque de búsqueda de producto interno máximo (MIPS) amortizado que utiliza redes neuronales, específicamente SupportNet y KeyNet, para predecir directamente los vectores óptimos aprovechando las propiedades matemáticas de las funciones de soporte, lo que reduce significativamente los costos computacionales para distribuciones de consultas fijas.

Theo X. Olausson, João Monteiro, Michal Klein, Marco Cuturi2026-03-10🤖 cs.LG

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

El artículo propone FedMomentum, un marco novedoso que preserva el impulso de entrenamiento en el ajuste fino federado de modelos de lenguaje mediante la agregación estructurada de adaptaciones LoRA utilizando descomposición de valores singulares (SVD), superando así las limitaciones de ruido y expresividad estructural de los métodos existentes para lograr una convergencia más rápida y un rendimiento superior.

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

El artículo presenta GCGNet, una red generativa basada en grafos que mejora la predicción de series temporales con variables exógenas al modelar conjuntamente las correlaciones temporales y de canal mediante un generador variacional, un alineador de estructura de grafos y un refinador, logrando así mayor robustez ante el ruido y superando a los métodos actuales en múltiples conjuntos de datos reales.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

El artículo presenta CDRRM, un marco de modelado de recompensas que genera rúbricas interpretables mediante un paradigma de contraste y síntesis para superar los sesgos y la dependencia de anotaciones costosas, logrando un rendimiento superior con alta eficiencia de datos.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

El artículo presenta SFed-LoRA, un marco de aprendizaje federado que introduce un factor de escala óptimo para mitigar la inestabilidad y el colapso de gradientes en la adaptación de bajo rango (LoRA) causados por la agregación de múltiples clientes, permitiendo así una adaptación de rango alto estable y eficiente sin alterar la arquitectura del modelo.

Jiayu Huang, Xiaohu Wu, Tiantian He, Qicheng Lao2026-03-10🤖 cs.LG

Deterministic Differentiable Structured Pruning for Large Language Models

Este artículo presenta la Eliminación Estructurada Determinista y Diferenciable (DDP), un método que optimiza máscaras deterministas para reducir el costo de inferencia de los modelos de lenguaje grandes sin la desviación entre entrenamiento y prueba inherente a los enfoques estocásticos anteriores, logrando una pérdida de rendimiento mínima y aceleraciones de inferencia significativas.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Este artículo presenta el marco DC-W2S, que entrena modelos de recompensa de proceso fiables para el razonamiento biológico mediante la combinación de consenso interno y vecinal para filtrar señales de supervisión ruidosas, demostrando que la curaduría estratégica de datos es más efectiva que el entrenamiento indiscriminado en grandes conjuntos de datos.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Tau-BNO: Brain Neural Operator for Tau Transport Model

El artículo presenta Tau-BNO, un marco de operador neuronal que actúa como sustituto computacional eficiente del Modelo de Transporte de Redes (NTM) para simular rápidamente la propagación de la proteína tau en el cerebro, superando las limitaciones de velocidad de los modelos mecánicos tradicionales y logrando una alta precisión predictiva que facilita el descubrimiento de nuevos mecanismos biológicos.

Nuutti Barron, Heng Rao, Urmi Saha, Yu Gu, Zhenghao Liu, Ge Yu, Defu Yang, Ashish Raj, Minghan Chen2026-03-10🤖 cs.LG

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

El artículo presenta ROMI, un nuevo enfoque de aprendizaje por refuerzo offline basado en modelos que supera las limitaciones de sobreconservadurismo e inestabilidad de métodos anteriores como RAMBO mediante un aprendizaje de modelo robusto consciente del valor y una ponderación adaptativa diferenciable implícitamente, logrando así un rendimiento superior en conjuntos de datos estándar.

Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

El artículo presenta SaiVLA-0, una arquitectura de visión-lenguaje-acción inspirada en la neurociencia que utiliza un diseño tripartito (Cerebro, Puente y Cerebelo) para lograr un control adaptable, eficiente en cómputo y modular, demostrando mejoras significativas en tiempo de entrenamiento y tasas de éxito en tareas robóticas.

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same

El artículo presenta TRIAGE, un marco ligero que descompone la incertidumbre en componentes aleatorios y epistémicos para activar respuestas correctivas específicas (recuperación de observaciones o moderación de control) y optimizar la capacidad del modelo, logrando mejoras significativas en la manipulación robótica y la eficiencia de la percepción adaptativa.

Divake Kumar, Sina Tayebati, Devashri Naik, Patrick Poggi, Amanda Sofie Rios, Nilesh Ahuja, Amit Ranjan Trivedi2026-03-10🤖 cs.LG