cs.LG artículos | Gist.Science

Graph-GRPO: Training Graph Flow Models with Reinforcement Learning

El artículo presenta Graph-GRPO, un marco de aprendizaje por refuerzo en línea que entrena modelos de flujo gráfico mediante una expresión analítica de probabilidad de transición y una estrategia de refinamiento local, logrando un rendimiento superior en tareas de generación y optimización molecular.

Baoheng Zhu, Deyu Bo, Delvin Ce Zhang, Xiao Wang2026-03-12🤖 cs.LG

On the Learning Dynamics of Two-layer Linear Networks with Label Noise SGD

Este artículo analiza la dinámica de aprendizaje de redes lineales de dos capas entrenadas con SGD y ruido en las etiquetas, revelando un comportamiento bifásico donde el ruido impulsa la transición de un régimen "perezoso" a uno "rico" para mejorar la generalización, un hallazgo que también se extiende a algoritmos como SAM y se valida mediante experimentos exhaustivos.

Tongcheng Zhang, Zhanpeng Zhou, Mingze Wang, Andi Han, Wei Huang, Taiji Suzuki, Junchi Yan2026-03-12🤖 cs.LG

Designing Service Systems from Textual Evidence

Este artículo presenta PP-LUCB, un algoritmo que optimiza la selección de configuraciones de sistemas de servicio utilizando puntuaciones de modelos de lenguaje grandes corregidas mediante auditorías humanas selectivas para minimizar costos y garantizar la precisión frente a sesgos sistemáticos.

Ruicheng Ao, Hongyu Chen, Siyang Gao, Hanwei Li, David Simchi-Levi2026-03-12🤖 cs.LG

Effective Dataset Distillation for Spatio-Temporal Forecasting with Bi-dimensional Compression

El artículo presenta STemDist, el primer método de destilación de datos diseñado específicamente para la predicción espacio-temporal, que comprime de manera equilibrada las dimensiones espaciales y temporales a nivel de clúster y mediante granularidad de subconjuntos, logrando entrenamientos hasta 6 veces más rápidos, 8 veces más eficientes en memoria y con un error de predicción hasta un 12% menor en comparación con métodos existentes.

Taehyung Kwon, Yeonje Choi, Yeongho Kim, Kijung Shin2026-03-12🤖 cs.LG

Domain-Adaptive Health Indicator Learning with Degradation-Stage Synchronized Sampling and Cross-Domain Autoencoder

Este artículo presenta un marco de aprendizaje de indicadores de salud adaptativo al dominio que combina un muestreo de lotes sincronizado por etapas de degradación y un autoencoder de fusión alineada entre dominios con mecanismos de atención cruzada para superar las discrepancias de distribución y las limitaciones estructurales en la modelado de señales de vibración complejas, logrando un rendimiento superior en sistemas de defensa y rodamientos industriales.

Jungho Choo, Hanbyeol Park, Gawon Lee, Yunkyung Park, Hyerim Bae2026-03-12🤖 cs.LG

Adaptive Active Learning for Regression via Reinforcement Learning

Este artículo presenta WiGS, un método de aprendizaje activo para regresión que utiliza aprendizaje por refuerzo para adaptar dinámicamente el equilibrio entre exploración e investigación, superando a los enfoques basados en reglas multiplicativas estáticas en precisión y eficiencia de etiquetado.

Simon D. Nguyen, Troy Russo, Kentaro Hoffman, Tyler H. McCormick2026-03-12📊 stat

GGMPs: Generalized Gaussian Mixture Processes

El artículo presenta los Procesos de Mezcla Gaussiana Generalizada (GGMP), un método basado en procesos gaussianos que permite la estimación de densidades condicionales multimodales y heterocedásticas mediante una combinación de ajuste local, alineación de componentes y entrenamiento por componente, ofreciendo una solución tratable y escalable para datos no gaussianos complejos.

Vardaan Tekriwal, Mark D. Risser, Hengrui Luo, Marcus M. Noack2026-03-12🤖 cs.LG

The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

El artículo demuestra que la eliminación de un sesgo de media coherente de rango uno, principal causante de la inestabilidad numérica en el entrenamiento de modelos de lenguaje con cuantización FP4, permite recuperar la estabilidad y el rendimiento cercanos a BF16 mediante una operación simple y eficiente en hardware.

Hengjie Cao, Zhendong Huang, Mengyi Chen, Yifeng Yang, Fanqi Yu, Ruijun Huang, Fang Dong, Xin Zhang, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Qin Lv, Yuan Cheng, Tun Lu, Fan Yang, Li Shang2026-03-12🤖 cs.LG

Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

Este artículo presenta un método de olvido de instancias sin prompts para modelos de difusión que, mediante un enfoque basado en sustitutos, edición de imágenes y cirugía de gradientes, permite eliminar selectivamente salidas indeseadas e inexpresables mediante texto (como rostros específicos o representaciones culturalmente inexactas) mientras preserva la integridad del modelo.

Kyungryeol Lee, Kyeonghyun Lee, Seongmin Hong, Byung Hyun Lee, Se Young Chun2026-03-12🤖 cs.LG

Brenier Isotonic Regression

Este artículo propone la "regresión isótona de Brenier", una extensión novedosa de la regresión isótona a múltiples salidas que utiliza el transporte óptimo para imponer la monotonía cíclica, demostrando un rendimiento superior en tareas de calibración de probabilidades y modelos lineales generalizados.

Han Bao, Amirreza Eshraghi, Yutong Wang2026-03-12📊 stat

Spatio-Temporal Forecasting of Retaining Wall Deformation: Mitigating Error Accumulation via Multi-Resolution ConvLSTM Stacking Ensemble

Este estudio propone un marco de conjunto basado en ConvLSTM multi-resolución que, al integrar diversas resoluciones temporales de entrada, mitiga la acumulación de errores y mejora la precisión en la predicción a largo plazo de la deformación de muros de contención durante excavaciones escalonadas.

Jihoon Kim (Department of Civil,Environmental Engineering, Hongik University, Seoul, Republic of Korea), Heejung Youn (Department of Civil,Environmental Engineering, Hongik University, Seoul, Republic of Korea)2026-03-12🤖 cs.LG

Beam-Plasma Collective Oscillations in Intense Charged-Particle Beams: Dielectric Response Theory, Langmuir Wave Dispersion, and Unsupervised Detection via Prometheus

Este artículo presenta un marco teórico y computacional que combina la teoría de respuesta dieléctrica cinética y un modelo de aprendizaje automático no supervisado (Prometheus) para describir y validar las oscilaciones colectivas de Langmuir, el ensanchamiento anómalo del haz y las oscilaciones de Friedel en haces de partículas cargadas intensas a energías intermedias.

Brandon Yee, Wilson Collins, Michael Iofin, Jiayi Fu2026-03-12🔬 physics

Muscle Synergy Priors Enhance Biomechanical Fidelity in Predictive Musculoskeletal Locomotion Simulation

Los autores presentan un marco de aprendizaje por refuerzo informado por la fisiología que utiliza sinergias musculares extraídas de datos experimentales limitados para generar simulaciones de locomoción humana tridimensional estables y biomecánicamente fieles en diversas condiciones de terreno y velocidad.

Ilseung Park (Carnegie Mellon University), Eunsik Choi (Seoul National University), Jangwhan Ahn (UNC-Chapel Hill and NC State University), Jooeun Ahn (Seoul National University)2026-03-12🤖 cs.LG

Dual Space Preconditioning for Gradient Descent in the Overparameterized Regime

Este trabajo demuestra que el descenso de gradiente precondicionado en el espacio dual converge a una solución que interpola los datos en modelos lineales sobreparametrizados y caracteriza su sesgo implícito, mostrando que para precondicionadores isotrópicos minimiza la distancia de Frobenius respecto a la inicialización, comportándose de manera análoga al descenso de gradiente estándar.

Reza Ghane, Danil Akhtiamov, Babak Hassibi2026-03-12📊 stat

JEDI: Jointly Embedded Inference of Neural Dynamics

El artículo presenta JEDI, un modelo jerárquico que infiere conjuntamente dinámicas neuronales y representaciones contextuales compartidas a partir de registros experimentales, permitiendo una generalización escalable entre múltiples tareas y revelando mecanismos subyacentes en el control motor.

Anirudh Jamkhandi, Ali Korojy, Olivier Codol, Guillaume Lajoie, Matthew G. Perich2026-03-12🧬 q-bio

A Universal Nearest-Neighbor Estimator for Intrinsic Dimensionality

Este artículo presenta un nuevo estimador universal de la dimensión intrínseca basado en ratios de distancias de vecinos más cercanos, el cual garantiza teóricamente la convergencia al valor real independientemente de la distribución de los datos y demuestra un rendimiento superior en experimentos con conjuntos de datos reales y sintéticos.

Eng-Jon Ong, Omer Bobrowski, Gesine Reinert, Primoz Skraba2026-03-12🤖 cs.LG

VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization

El artículo presenta VERI-DPO, un enfoque de alineación para la síntesis clínica que utiliza la verificación de afirmaciones para extraer preferencias y optimizar directamente los modelos, logrando una reducción significativa de afirmaciones no respaldadas por la evidencia en los resúmenes de historias hospitalarias.

Weixin Liu, Congning Ni, Qingyuan Song, Susannah L. Rose, Christopher Symons, Murat Kantarcioglu, Bradley A. Malin, Zhijun Yin2026-03-12💬 cs.CL

A New Tensor Network: Tubal Tensor Train and Its Applications

Este artículo presenta la descomposición de tren tensorial tubal (TTT), un nuevo modelo de redes tensoriales que combina el álgebra t-producto con una estructura de núcleos de bajo orden para lograr un almacenamiento escalable linealmente y ofrecer estrategias computacionales eficientes aplicables a la compresión de imágenes y videos, la completación tensorial y la imagen hiperespectral.

Salman Ahmadi-Asl, Valentin Leplat, Anh-Huy Phan, Andrzej Cichocki2026-03-12🔢 math

Resource-constrained Amazons chess decision framework integrating large language models and graph attention

Este artículo presenta un marco híbrido ligero para el juego de las Amazonas que integra modelos de lenguaje grandes con aprendizaje basado en grafos para superar las limitaciones de recursos, logrando un rendimiento superior al de su modelo base mediante el uso de datos sintéticos y mecanismos de filtrado estructural.

Tianhao Qian, Zhuoxuan Li, Jinde Cao, Xinli Shi, Hanjie Liu, Leszek Rutkowski2026-03-12🤖 cs.AI

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

El artículo presenta IH-Challenge, un conjunto de datos de aprendizaje por refuerzo diseñado para mejorar la jerarquía de instrucciones en modelos de lenguaje avanzados, logrando una mayor robustez contra ataques de inyección y jailbreaks sin comprometer su utilidad general.

Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao2026-03-12🤖 cs.AI

← Anterior Siguiente →