cs.LG artículos | Gist.Science

MJ1: Multimodal Judgment via Grounded Verification

El artículo presenta MJ1, un juez multimodal de 3B parámetros entrenado con aprendizaje por refuerzo que utiliza una cadena de verificación fundamentada y una recompensa de consistencia contrafactual para lograr una precisión superior a modelos mucho más grandes en la evaluación de razonamiento y edición de imágenes, demostrando que la verificación fundamentada mejora significativamente el juicio multimodal sin aumentar la escala del modelo.

Bhavesh Kumar, Dylan Feng, Leonard Tang2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

SmartThinker es un nuevo método basado en GRPO que calibra progresivamente la longitud del razonamiento en cadena de pensamiento mediante la estimación dinámica de la longitud óptima y la modulación de la recompensa, logrando una compresión significativa de la longitud de respuesta sin sacrificar, e incluso mejorando, la precisión en tareas complejas.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

Amortizing Maximum Inner Product Search with Learned Support Functions

Este artículo propone un enfoque de búsqueda de producto interno máximo (MIPS) amortizado que utiliza redes neuronales, específicamente SupportNet y KeyNet, para predecir directamente los vectores óptimos aprovechando las propiedades matemáticas de las funciones de soporte, lo que reduce significativamente los costos computacionales para distribuciones de consultas fijas.

Theo X. Olausson, João Monteiro, Michal Klein, Marco Cuturi2026-03-10🤖 cs.LG

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

El artículo propone FedMomentum, un marco novedoso que preserva el impulso de entrenamiento en el ajuste fino federado de modelos de lenguaje mediante la agregación estructurada de adaptaciones LoRA utilizando descomposición de valores singulares (SVD), superando así las limitaciones de ruido y expresividad estructural de los métodos existentes para lograr una convergencia más rápida y un rendimiento superior.

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Capacity-Aware Mixture Law Enables Efficient LLM Data Optimization

El artículo presenta CAMEL, una ley de mezcla consciente de la capacidad que permite optimizar de manera eficiente la mezcla de datos para modelos de lenguaje grandes mediante la predicción del rendimiento en modelos objetivo de gran escala, reduciendo los costos de optimización en un 50% y mejorando el rendimiento en un 3%.

Jingwei Li, Xinran Gu, Jingzhao Zhang2026-03-10🤖 cs.LG

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

El artículo presenta GCGNet, una red generativa basada en grafos que mejora la predicción de series temporales con variables exógenas al modelar conjuntamente las correlaciones temporales y de canal mediante un generador variacional, un alineador de estructura de grafos y un refinador, logrando así mayor robustez ante el ruido y superando a los métodos actuales en múltiples conjuntos de datos reales.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

El artículo presenta CDRRM, un marco de modelado de recompensas que genera rúbricas interpretables mediante un paradigma de contraste y síntesis para superar los sesgos y la dependencia de anotaciones costosas, logrando un rendimiento superior con alta eficiencia de datos.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

El artículo presenta SFed-LoRA, un marco de aprendizaje federado que introduce un factor de escala óptimo para mitigar la inestabilidad y el colapso de gradientes en la adaptación de bajo rango (LoRA) causados por la agregación de múltiples clientes, permitiendo así una adaptación de rango alto estable y eficiente sin alterar la arquitectura del modelo.

Jiayu Huang, Xiaohu Wu, Tiantian He, Qicheng Lao2026-03-10🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

Este estudio propone un marco de adaptación de dominio basado en aprendizaje profundo que facilita la transferencia efectiva de conocimiento entre conjuntos de datos heterogéneos de RNA-seq, mejorando significativamente la precisión en la clasificación de tipos de cáncer y tejidos, especialmente en escenarios con datos limitados.

Kevin Dradjat, Massinissa Hamidi, Blaise Hanczar2026-03-10🤖 cs.LG

Deterministic Differentiable Structured Pruning for Large Language Models

Este artículo presenta la Eliminación Estructurada Determinista y Diferenciable (DDP), un método que optimiza máscaras deterministas para reducir el costo de inferencia de los modelos de lenguaje grandes sin la desviación entre entrenamiento y prueba inherente a los enfoques estocásticos anteriores, logrando una pérdida de rendimiento mínima y aceleraciones de inferencia significativas.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

Hybrid Quantum Neural Network for Multivariate Clinical Time Series Forecasting

Este trabajo propone una arquitectura híbrida cuántico-clásica que integra un circuito cuántico variacional dentro de una red neuronal recurrente para pronosticar múltiples señales fisiológicas en tiempo real, demostrando una precisión competitiva y una mayor robustez ante el ruido en entornos clínicos con cohortes pequeñas.

Irene Iele, Floriano Caprio, Paolo Soda, Matteo Tortora2026-03-10🤖 cs.LG

Tiny Autoregressive Recursive Models

Este artículo propone y evalúa el modelo Autoregressive TRM, encontrando que, aunque los mecanismos de refinamiento en dos pasos muestran potencial, la arquitectura específica del Autoregressive TRM no ofrece mejoras de rendimiento fiables en comparación con modelos estándar en tareas algorítmicas a nivel de caracteres.

Paulius Rauba, Claudio Fanconi, Mihaela van der Schaar2026-03-10🤖 cs.LG

EAGLE-Pangu: Accelerator-Safe Tree Speculative Decoding on Ascend NPUs

El artículo presenta EAGLE-Pangu, un sistema reproducible que adapta la decodificación especulativa en árbol al backend Pangu en NPUs Ascend mediante gestión de caché explícita y tensorización segura para el acelerador, logrando mejoras de rendimiento de hasta 2.46x en comparación con la decodificación greedy tradicional.

Chang Han, Yijie Hu, Jingling Liu2026-03-10🤖 cs.LG

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Este artículo presenta el marco DC-W2S, que entrena modelos de recompensa de proceso fiables para el razonamiento biológico mediante la combinación de consenso interno y vecinal para filtrar señales de supervisión ruidosas, demostrando que la curaduría estratégica de datos es más efectiva que el entrenamiento indiscriminado en grandes conjuntos de datos.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Invisible Safety Threat: Malicious Finetuning for LLM via Steganography

Este artículo presenta una amenaza de seguridad invisible en la que se ajusta fino un modelo de lenguaje para generar contenido malicioso oculto mediante esteganografía, engañando tanto a los observadores humanos como a los sistemas de clasificación de seguridad mientras mantiene una apariencia benigna.

Guangnian Wan, Xinyin Ma, Gongfan Fang, Xinchao Wang2026-03-10🤖 cs.LG

Tau-BNO: Brain Neural Operator for Tau Transport Model

El artículo presenta Tau-BNO, un marco de operador neuronal que actúa como sustituto computacional eficiente del Modelo de Transporte de Redes (NTM) para simular rápidamente la propagación de la proteína tau en el cerebro, superando las limitaciones de velocidad de los modelos mecánicos tradicionales y logrando una alta precisión predictiva que facilita el descubrimiento de nuevos mecanismos biológicos.

Nuutti Barron, Heng Rao, Urmi Saha, Yu Gu, Zhenghao Liu, Ge Yu, Defu Yang, Ashish Raj, Minghan Chen2026-03-10🤖 cs.LG

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

El artículo presenta ROMI, un nuevo enfoque de aprendizaje por refuerzo offline basado en modelos que supera las limitaciones de sobreconservadurismo e inestabilidad de métodos anteriores como RAMBO mediante un aprendizaje de modelo robusto consciente del valor y una ponderación adaptativa diferenciable implícitamente, logrando así un rendimiento superior en conjuntos de datos estándar.

Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

El artículo presenta SaiVLA-0, una arquitectura de visión-lenguaje-acción inspirada en la neurociencia que utiliza un diseño tripartito (Cerebro, Puente y Cerebelo) para lograr un control adaptable, eficiente en cómputo y modular, demostrando mejoras significativas en tiempo de entrenamiento y tasas de éxito en tareas robóticas.

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

El artículo presenta FoleyFlow, un método que mejora la generación coordinada de audio a partir de video mediante un entrenamiento de alineación multimodal enmascarada y un flujo condicional dinámico, logrando una sincronización semántica y rítmica superior a las técnicas anteriores.

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same

El artículo presenta TRIAGE, un marco ligero que descompone la incertidumbre en componentes aleatorios y epistémicos para activar respuestas correctivas específicas (recuperación de observaciones o moderación de control) y optimizar la capacidad del modelo, logrando mejoras significativas en la manipulación robótica y la eficiencia de la percepción adaptativa.

Divake Kumar, Sina Tayebati, Devashri Naik, Patrick Poggi, Amanda Sofie Rios, Nilesh Ahuja, Amit Ranjan Trivedi2026-03-10🤖 cs.LG

← Anterior Siguiente →