Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Este estudio demuestra que, desde una perspectiva de datos, el Ajuste Fino por Refuerzo (RFT) preserva mejor el conocimiento previo de los modelos de lenguaje multimodal que el Ajuste Fino Supervisado (SFT) al alinear las actualizaciones con la distribución de probabilidad base, mitigando así el olvido catastrófico mediante dinámicas de aprendizaje menos intrusivas.

Zhihao Zhang, Qiaole Dong, Qi Zhang + 12 more2026-03-06💻 cs

Overtone: Cyclic Patch Modulation for Clean, Efficient, and Flexible Physics Emulators

El artículo presenta Overtone, un marco unificado que mitiga la acumulación de errores sistemáticos en los sustitutos de EDP basados en transformadores mediante la modulación cíclica dinámica del tamaño de las parches durante la inferencia, logrando así una mayor precisión en simulaciones a largo plazo y una eficiencia computacional adaptable.

Payel Mukhopadhyay, Michael McCabe, Ruben Ohana + 1 more2026-03-06💻 cs

In-Training Defenses against Emergent Misalignment in Language Models

Este estudio presenta la primera evaluación sistemática de defensas durante el entrenamiento para mitigar el desalineamiento emergente en modelos de lenguaje ajustados mediante API, demostrando que intercalar datos de instrucción general seleccionados por la brecha de perplejidad entre modelos alineados y desalineados ofrece el mejor equilibrio entre seguridad, rendimiento y coherencia.

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

LHM-Humanoid: Learning a Unified Policy for Long-Horizon Humanoid Whole-Body Loco-Manipulation in Diverse Messy Environments

El artículo presenta LHM-Humanoid, un marco de aprendizaje y un conjunto de datos que permiten a un agente humanoides ejecutar tareas complejas de locomoción y manipulación en entornos desordenados mediante una política unificada de extremo a extremo que supera a los métodos anteriores en generalización y robustez.

Haozhuo Zhang, Jingkai Sun, Michele Caprio + 4 more2026-03-06💻 cs

A Geometric Perspective on the Difficulties of Learning GNN-based SAT Solvers

Este artículo explica el deterioro del rendimiento de los solucionadores SAT basados en Redes Neuronales de Grafos (GNN) en instancias difíciles mediante un análisis geométrico que demuestra que la curvatura de Ricci negativa en los grafos bipartitos de fórmulas k-SAT provoca un "oversquashing" que impide capturar dependencias de largo alcance, estableciendo así la curvatura como un indicador predictivo de la complejidad del problema y del error de generalización.

Geri Skenderi2026-03-06🔬 physics

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Este artículo presenta TSPC, una arquitectura de dos etapas centrada en fonemas que utiliza un conjunto de fonomas vietnamitas extendido como representación intermedia para mejorar el reconocimiento de habla con cambio de código entre vietnamita e inglés, logrando una tasa de error de palabra significativamente menor que los modelos existentes incluso con recursos computacionales limitados.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

Este trabajo presenta un marco de aprendizaje basado en difusión que combina modelos generativos con control de impedancia consistente con la energía para adaptar dinámicamente la rigidez y el amortiguamiento en tareas de manipulación con contacto, logrando una alta precisión y un rendimiento robusto en tareas complejas como la inserción de clavijas en agujeros.

Noah Geiger, Tamim Asfour, Neville Hogan + 1 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

El estudio revela que los modelos de lenguaje en SpeechLLMs presentan fallos de robustez estructural al procesar el habla conversacional, mostrando una tendencia a la sobreeliminación de contenido fluido y una generalización limitada tras el ajuste fino, lo que demuestra que la capacidad de manejar el habla depende de objetivos de entrenamiento específicos.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

Complexity-Regularized Proximal Policy Optimization

Este artículo presenta CR-PPO, un algoritmo de optimización de políticas que reemplaza la regularización de entropía estándar con un término de complejidad autorregulado (producto de entropía y desequilibrio) para mantener un equilibrio óptimo entre orden y aleatoriedad, logrando así una mayor robustez frente a la selección de hiperparámetros y reduciendo la necesidad de ajustes costosos.

Luca Serfilippi, Giorgio Franceschelli, Antonio Corradi + 1 more2026-03-06💻 cs

Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

Este artículo demuestra que el aprendizaje subliminal, mediante el cual los modelos de lenguaje transfieren sesgos ocultos durante la destilación, no requiere filtrado de logits ni entrelazamiento global, sino que depende de un pequeño conjunto de "tokens de divergencia" en las primeras capas del modelo y es altamente frágil ante cambios menores en el prompt.

Simon Schrodi, Elias Kempf, Fazl Barez + 1 more2026-03-06💻 cs

Pretraining Large Language Models with NVFP4

Este estudio presenta un método innovador para el preentrenamiento estable y preciso de modelos de lenguaje grandes en formato NVFP4, que mediante transformaciones de Hadamard aleatorias, esquemas de cuantización bidimensionales y redondeo estocástico, logra un rendimiento comparable al de la precisión FP8 en un modelo de 12 mil millones de parámetros entrenado con 10 billones de tokens.

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

El artículo presenta PrefDisco, un marco de evaluación que transforma las pruebas estáticas en tareas interactivas para medir la capacidad de los modelos de lenguaje de realizar un "razonamiento personalizado" proactivo mediante la identificación de preferencias del usuario y la adaptación de sus respuestas, demostrando que esta habilidad no surge naturalmente y es crucial para aplicaciones en educación, salud y tecnología.

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

Este trabajo presenta EgoTraj-Bench, el primer benchmark del mundo real para la predicción de trayectorias en visión ego-centrica bajo observaciones ruidosas, junto con BiFlow, un modelo de flujo de doble corriente que logra un rendimiento superior al estado del arte al denoizar observaciones históricas y predecir movimientos futuros mediante un mecanismo de anclaje ego.

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs