Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

El artículo presenta OPSD, un marco de auto-distilación en política que permite a un único modelo de lenguaje actuar simultáneamente como profesor y alumno al condicionar en información privilegiada y no privilegiada respectivamente, logrando así una mayor eficiencia en tokens y rendimiento en tareas de razonamiento matemático en comparación con métodos de aprendizaje por refuerzo y distilación fuera de política.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction

Este trabajo propone una versión escalable de CopulaGNN para la predicción de signos en enlaces mediante el modelado de dependencias estadísticas entre aristas usando copulas gaussianas, optimizando la eficiencia computacional y la convergencia mediante la representación de la matriz de correlación como un gramiano de incrustaciones y la reformulación de la distribución de probabilidad condicional.

Jinkyu Sung, Myunggeum Jee, Joonseok Lee2026-03-06💻 cs

Mobility-Embedded POIs: Learning What A Place Is and How It Is Used from Human Movement

El artículo presenta ME-POIs, un marco que mejora las representaciones de los puntos de interés al combinar embeddings de lenguaje con datos de movilidad humana a gran escala para capturar tanto la identidad como la función de los lugares, superando así a los enfoques basados únicamente en texto o en trayectorias en diversas tareas de enriquecimiento de mapas.

Maria Despoina Siampou, Shushman Choudhury, Shang-Ling Hsu + 2 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

El artículo presenta VIP, una estrategia de asignación de trayectorias basada en la varianza que utiliza modelos de procesos gaussianos para optimizar dinámicamente la distribución del presupuesto computacional en el aprendizaje por refuerzo en línea, mejorando así la eficiencia de muestreo y el rendimiento en comparación con métodos de asignación uniforme.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs