Beam-Plasma Collective Oscillations in Intense Charged-Particle Beams: Dielectric Response Theory, Langmuir Wave Dispersion, and Unsupervised Detection via Prometheus

Este artículo presenta un marco teórico y computacional que combina la teoría de respuesta dieléctrica cinética y un modelo de aprendizaje automático no supervisado (Prometheus) para describir y validar las oscilaciones colectivas de Langmuir, el ensanchamiento anómalo del haz y las oscilaciones de Friedel en haces de partículas cargadas intensas a energías intermedias.

Brandon Yee, Wilson Collins, Michael Iofin, Jiayi Fu2026-03-12🔬 physics

Muscle Synergy Priors Enhance Biomechanical Fidelity in Predictive Musculoskeletal Locomotion Simulation

Los autores presentan un marco de aprendizaje por refuerzo informado por la fisiología que utiliza sinergias musculares extraídas de datos experimentales limitados para generar simulaciones de locomoción humana tridimensional estables y biomecánicamente fieles en diversas condiciones de terreno y velocidad.

Ilseung Park (Carnegie Mellon University), Eunsik Choi (Seoul National University), Jangwhan Ahn (UNC-Chapel Hill and NC State University), Jooeun Ahn (Seoul National University)2026-03-12🤖 cs.LG

Dual Space Preconditioning for Gradient Descent in the Overparameterized Regime

Este trabajo demuestra que el descenso de gradiente precondicionado en el espacio dual converge a una solución que interpola los datos en modelos lineales sobreparametrizados y caracteriza su sesgo implícito, mostrando que para precondicionadores isotrópicos minimiza la distancia de Frobenius respecto a la inicialización, comportándose de manera análoga al descenso de gradiente estándar.

Reza Ghane, Danil Akhtiamov, Babak Hassibi2026-03-12📊 stat

VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization

El artículo presenta VERI-DPO, un enfoque de alineación para la síntesis clínica que utiliza la verificación de afirmaciones para extraer preferencias y optimizar directamente los modelos, logrando una reducción significativa de afirmaciones no respaldadas por la evidencia en los resúmenes de historias hospitalarias.

Weixin Liu, Congning Ni, Qingyuan Song, Susannah L. Rose, Christopher Symons, Murat Kantarcioglu, Bradley A. Malin, Zhijun Yin2026-03-12💬 cs.CL

A New Tensor Network: Tubal Tensor Train and Its Applications

Este artículo presenta la descomposición de tren tensorial tubal (TTT), un nuevo modelo de redes tensoriales que combina el álgebra t-producto con una estructura de núcleos de bajo orden para lograr un almacenamiento escalable linealmente y ofrecer estrategias computacionales eficientes aplicables a la compresión de imágenes y videos, la completación tensorial y la imagen hiperespectral.

Salman Ahmadi-Asl, Valentin Leplat, Anh-Huy Phan, Andrzej Cichocki2026-03-12🔢 math

Resource-constrained Amazons chess decision framework integrating large language models and graph attention

Este artículo presenta un marco híbrido ligero para el juego de las Amazonas que integra modelos de lenguaje grandes con aprendizaje basado en grafos para superar las limitaciones de recursos, logrando un rendimiento superior al de su modelo base mediante el uso de datos sintéticos y mecanismos de filtrado estructural.

Tianhao Qian, Zhuoxuan Li, Jinde Cao, Xinli Shi, Hanjie Liu, Leszek Rutkowski2026-03-12🤖 cs.AI

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

El artículo presenta IH-Challenge, un conjunto de datos de aprendizaje por refuerzo diseñado para mejorar la jerarquía de instrucciones en modelos de lenguaje avanzados, logrando una mayor robustez contra ataques de inyección y jailbreaks sin comprometer su utilidad general.

Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao2026-03-12🤖 cs.AI

World Model for Battery Degradation Prediction Under Non-Stationary Aging

Este artículo propone un modelo de mundo para predecir la degradación de baterías de iones de litio bajo envejecimiento no estacionario, el cual codifica series temporales en un estado latente y propaga su dinámica mediante un modelo aprendido (potenciado por restricciones de un modelo de partícula única) para generar trayectorias futuras con una precisión superior a la regresión directa.

Kai Chin Lim, Khay Wai See2026-03-12⚡ eess

UAV-MARL: Multi-Agent Reinforcement Learning for Time-Critical and Dynamic Medical Supply Delivery

Este artículo presenta un marco de aprendizaje por refuerzo multiagente basado en Proximal Policy Optimization (PPO) para coordinar flotas de drones en la entrega de suministros médicos, demostrando mediante datos geográficos reales que la versión clásica de PPO supera a las estrategias asíncronas y secuenciales en la gestión de logística sanitaria dinámica y bajo incertidumbre.

Islam Guven, Mehmet Parlak2026-03-12🤖 cs.LG

Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning

El artículo presenta GR³, un método de aprendizaje por refuerzo que mitiga la inflación de longitud en los LLM mediante un redimensionamiento multiplicativo de recompensas y regularización relativa a grupos, logrando controlar la verbosidad sin comprometer el rendimiento ni la dinámica de entrenamiento.

Zichao Li, Jie Lou, Fangchen Dong, Zhiyuan Fan, Mengjie Ren, Hongyu Lin, Xianpei Han, Debing Zhang, Le Sun, Yaojie Lu, Xing Yu2026-03-12🤖 cs.LG

Learning to Score: Tuning Cluster Schedulers through Reinforcement Learning

Este artículo propone un enfoque de aprendizaje por refuerzo para optimizar automáticamente los pesos de las funciones de puntuación en los programadores de clústeres, logrando mejoras significativas en el rendimiento de los trabajos al adaptarse a las características específicas de cada carga de trabajo sin necesidad de conocimiento experto manual.

Martin Asenov, Qiwen Deng, Gingfung Yeung, Adam Barker2026-03-12🤖 cs.LG

Quantization Robustness of Monotone Operator Equilibrium Networks

Este artículo demuestra que la convergencia y unicidad de las redes de equilibrio de operadores monótonos bajo cuantización de pesos están garantizadas siempre que la perturbación espectral sea menor que el margen de monotonía, estableciendo límites teóricos para el error y validando experimentalmente que la cuantización consciente del entrenamiento puede recuperar la convergencia a niveles de precisión de cuatro bits.

James Li, Philip H. W. Leong, Thomas Chaffey2026-03-12⚡ eess

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

Este estudio empírico demuestra que, contrariamente a la hipótesis de que el alineamiento moral requiere algoritmos que fomenten la diversidad, los métodos de maximización de recompensas (RLVR) son igual o más efectivos que los enfoques de coincidencia de distribución, debido a que las respuestas de alto valor en el razonamiento moral presentan una distribución más concentrada que en el razonamiento matemático.

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie2026-03-12🤖 cs.AI