cs.AI artículos | Gist.Science

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Este estudio demuestra que, desde una perspectiva de datos, el Ajuste Fino por Refuerzo (RFT) preserva mejor el conocimiento previo de los modelos de lenguaje multimodal que el Ajuste Fino Supervisado (SFT) al alinear las actualizaciones con la distribución de probabilidad base, mitigando así el olvido catastrófico mediante dinámicas de aprendizaje menos intrusivas.

Zhihao Zhang, Qiaole Dong, Qi Zhang + 12 more2026-03-06💻 cs

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

El artículo presenta MuRating, un marco escalable que transfiere señales de calidad de datos del inglés a un evaluador multilingüe único para seleccionar conjuntos de datos equilibrados que mejoran significativamente el rendimiento de modelos de lenguaje grandes en tareas de conocimiento y evaluación multilingüe.

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Design and Experimental Validation of Sensorless 4-Channel Bilateral Teleoperation for Low-Cost Manipulators

Este artículo presenta y valida experimentalmente un marco de teleoperación bilateral de 4 canales sin sensores que permite el control de fuerza estable en manipuladores de bajo costo, mejorando significativamente el rendimiento del aprendizaje por imitación en tareas de manipulación rápida y con contacto.

Koki Yamane, Yunhan Li, Masashi Konosu + 4 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Este trabajo presenta TreeBench, un nuevo benchmark diseñado para evaluar el razonamiento visual fundamentado mediante evidencia trazable, y propone TreeVGR, un paradigma de entrenamiento que mejora significativamente el rendimiento de los modelos en tareas de localización y razonamiento complejo.

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Overtone: Cyclic Patch Modulation for Clean, Efficient, and Flexible Physics Emulators

El artículo presenta Overtone, un marco unificado que mitiga la acumulación de errores sistemáticos en los sustitutos de EDP basados en transformadores mediante la modulación cíclica dinámica del tamaño de las parches durante la inferencia, logrando así una mayor precisión en simulaciones a largo plazo y una eficiencia computacional adaptable.

Payel Mukhopadhyay, Michael McCabe, Ruben Ohana + 1 more2026-03-06💻 cs

In-Training Defenses against Emergent Misalignment in Language Models

Este estudio presenta la primera evaluación sistemática de defensas durante el entrenamiento para mitigar el desalineamiento emergente en modelos de lenguaje ajustados mediante API, demostrando que intercalar datos de instrucción general seleccionados por la brecha de perplejidad entre modelos alineados y desalineados ofrece el mejor equilibrio entre seguridad, rendimiento y coherencia.

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

El artículo presenta Vevo2, un marco unificado y controlable para la generación de voz hablada y cantada que supera la escasez de datos mediante tokenizadores de audio avanzados y estrategias de aprendizaje conjunto, logrando una generalización superior en tareas de síntesis, conversión y edición.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

LHM-Humanoid: Learning a Unified Policy for Long-Horizon Humanoid Whole-Body Loco-Manipulation in Diverse Messy Environments

El artículo presenta LHM-Humanoid, un marco de aprendizaje y un conjunto de datos que permiten a un agente humanoides ejecutar tareas complejas de locomoción y manipulación en entornos desordenados mediante una política unificada de extremo a extremo que supera a los métodos anteriores en generalización y robustez.

Haozhuo Zhang, Jingkai Sun, Michele Caprio + 4 more2026-03-06💻 cs

A Geometric Perspective on the Difficulties of Learning GNN-based SAT Solvers

Este artículo explica el deterioro del rendimiento de los solucionadores SAT basados en Redes Neuronales de Grafos (GNN) en instancias difíciles mediante un análisis geométrico que demuestra que la curvatura de Ricci negativa en los grafos bipartitos de fórmulas k-SAT provoca un "oversquashing" que impide capturar dependencias de largo alcance, estableciendo así la curvatura como un indicador predictivo de la complejidad del problema y del error de generalización.

Geri Skenderi2026-03-06🔬 physics

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Este artículo presenta TSPC, una arquitectura de dos etapas centrada en fonemas que utiliza un conjunto de fonomas vietnamitas extendido como representación intermedia para mejorar el reconocimiento de habla con cambio de código entre vietnamita e inglés, logrando una tasa de error de palabra significativamente menor que los modelos existentes incluso con recursos computacionales limitados.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

Este artículo presenta un método de navegación para cuadricópteros basado en aprendizaje por refuerzo que utiliza información privilegiada y mapas de tiempo de llegada para superar grandes obstáculos, logrando un 86% de éxito en simulaciones y validándose con vuelos reales sin colisiones en entornos exteriores complejos.

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

Este trabajo presenta un marco de aprendizaje basado en difusión que combina modelos generativos con control de impedancia consistente con la energía para adaptar dinámicamente la rigidez y el amortiguamiento en tareas de manipulación con contacto, logrando una alta precisión y un rendimiento robusto en tareas complejas como la inserción de clavijas en agujeros.

Noah Geiger, Tamim Asfour, Neville Hogan + 1 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

El estudio revela que los modelos de lenguaje en SpeechLLMs presentan fallos de robustez estructural al procesar el habla conversacional, mostrando una tendencia a la sobreeliminación de contenido fluido y una generalización limitada tras el ajuste fino, lo que demuestra que la capacidad de manejar el habla depende de objetivos de entrenamiento específicos.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

Complexity-Regularized Proximal Policy Optimization

Este artículo presenta CR-PPO, un algoritmo de optimización de políticas que reemplaza la regularización de entropía estándar con un término de complejidad autorregulado (producto de entropía y desequilibrio) para mantener un equilibrio óptimo entre orden y aleatoriedad, logrando así una mayor robustez frente a la selección de hiperparámetros y reduciendo la necesidad de ajustes costosos.

Luca Serfilippi, Giorgio Franceschelli, Antonio Corradi + 1 more2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

BridgeDrive es una nueva política de planificación de trayectorias en bucle cerrado para la conducción autónoma que utiliza un puente de difusión guiado por anclajes para transformar trayectorias básicas en planes refinados y seguros, logrando un rendimiento superior al estado del arte en evaluaciones de conducción en tiempo real.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

Este artículo demuestra que el aprendizaje subliminal, mediante el cual los modelos de lenguaje transfieren sesgos ocultos durante la destilación, no requiere filtrado de logits ni entrelazamiento global, sino que depende de un pequeño conjunto de "tokens de divergencia" en las primeras capas del modelo y es altamente frágil ante cambios menores en el prompt.

Simon Schrodi, Elias Kempf, Fazl Barez + 1 more2026-03-06💻 cs

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

El artículo presenta BeyondBench, un marco de evaluación que genera problemas algorítmicos dinámicos e inmensamente variados para medir de forma resistente a la contaminación la capacidad de razonamiento real de los modelos de lenguaje, revelando deficiencias significativas en tareas complejas y la dependencia crítica del uso de herramientas.

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

Pretraining Large Language Models with NVFP4

Este estudio presenta un método innovador para el preentrenamiento estable y preciso de modelos de lenguaje grandes en formato NVFP4, que mediante transformaciones de Hadamard aleatorias, esquemas de cuantización bidimensionales y redondeo estocástico, logra un rendimiento comparable al de la precisión FP8 en un modelo de 12 mil millones de parámetros entrenado con 10 billones de tokens.

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

El artículo presenta PrefDisco, un marco de evaluación que transforma las pruebas estáticas en tareas interactivas para medir la capacidad de los modelos de lenguaje de realizar un "razonamiento personalizado" proactivo mediante la identificación de preferencias del usuario y la adaptación de sus respuestas, demostrando que esta habilidad no surge naturalmente y es crucial para aplicaciones en educación, salud y tecnología.

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

Este trabajo presenta EgoTraj-Bench, el primer benchmark del mundo real para la predicción de trayectorias en visión ego-centrica bajo observaciones ruidosas, junto con BiFlow, un modelo de flujo de doble corriente que logra un rendimiento superior al estado del arte al denoizar observaciones históricas y predecir movimientos futuros mediante un mecanismo de anclaje ego.

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

← Anterior Siguiente →