cs.LG artículos | Gist.Science

Parallel Token Prediction for Language Models

Este artículo presenta la Predicción Paralela de Tokens (PTP), un marco general que acelera la decodificación de modelos de lenguaje al predecir múltiples tokens simultáneamente mediante la transformación de la aleatoriedad en variables de entrada deterministas, logrando una aceleración de 2.4x en comparación con los métodos tradicionales.

Felix Draxler, Justus Will, Farrin Marouf Sofian + 3 more2026-03-06💻 cs

Uncertainty-Aware Flow Field Reconstruction Using SVGP Kolmogorov-Arnold Networks

Este artículo presenta un marco de aprendizaje automático basado en redes SVGP-KAN que permite reconstruir campos de flujo con incertidumbre epistémica cuantificada a partir de mediciones velocimétricas temporales dispersas, superando a los métodos clásicos al ofrecer estimaciones de error calibradas y guías prácticas para el diseño experimental.

Y. Sungtaek Ju2026-03-06🔬 physics

Prediction of Cellular Malignancy Using Electrical Impedance Signatures and Supervised Machine Learning

Este estudio demuestra que la integración de las propiedades bioeléctricas celulares con algoritmos de aprendizaje automático, destacando el modelo Random Forest con una precisión del 90%, ofrece un enfoque prometedor para la clasificación y diagnóstico de la malignidad celular.

Shadeeb Hossain2026-03-06💻 cs

Controlled LLM Training on Spectral Sphere

Este trabajo presenta el Optimizador de Esfera Espectral (SSO), un algoritmo que alinea completamente la optimización con la parametrización de actualización máxima ( $\mu$ P) mediante restricciones espectrales estrictas, logrando una convergencia más rápida y una mayor estabilidad en el entrenamiento a gran escala de diversos modelos de lenguaje en comparación con AdamW y Muon.

Tian Xie, Haoming Luo, Haoyu Tang + 9 more2026-03-06💻 cs

BPE: Behavioral Profiling Ensemble

El artículo propone el marco Behavioral Profiling Ensemble (BPE), un enfoque centrado en el modelo que supera a los métodos de selección dinámica de conjuntos existentes al generar perfiles de comportamiento intrínsecos para cada clasificador, logrando así una mayor precisión predictiva con menor sobrecarga computacional en 42 conjuntos de datos reales.

Yanxin Liu, Yunqi Zhang2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

El artículo presenta EmboTeam, un marco de planificación para equipos de robots heterogéneos que integra el razonamiento de modelos de lenguaje grande con árboles de comportamiento reactivos mediante PDDL, logrando mejoras significativas en la ejecución de tareas complejas de largo alcance en entornos domésticos simulados.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

ButterflyMoE: Sub-Linear Ternary Experts via Structured Butterfly Orbits

ButterflyMoE es un método que supera las limitaciones de memoria en dispositivos de borde al representar a los expertos como reorientaciones geométricas de un sustrato compartido cuantizado mediante rotaciones aprendidas, logrando una reducción de memoria sublineal de 150 veces con pérdida de precisión negligible.

Aryan Karmore2026-03-06💻 cs

Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

El artículo presenta Yuan3.0 Ultra, un modelo de lenguaje de código abierto basado en una mezcla de expertos (MoE) con 1010 mil millones de parámetros totales y 68.8 mil millones activados, que utiliza el algoritmo de Poda de Expertos Adaptativa por Capas (LAEP) para mejorar la eficiencia del preentrenamiento y lograr un rendimiento líder en tareas empresariales específicas.

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Agentic Very Long Video Understanding

Este trabajo presenta EGAgent, un marco agéntico basado en grafos de escenas de entidades que supera las limitaciones de los métodos actuales para lograr una comprensión contextual profunda y razonamiento composicional en streams de video egocéntrico continuo de larga duración, logrando un rendimiento superior en tareas complejas de comprensión de video longitudinal.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

El artículo presenta OPSD, un marco de auto-distilación en política que permite a un único modelo de lenguaje actuar simultáneamente como profesor y alumno al condicionar en información privilegiada y no privilegiada respectivamente, logrando así una mayor eficiencia en tokens y rendimiento en tareas de razonamiento matemático en comparación con métodos de aprendizaje por refuerzo y distilación fuera de política.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction

Este trabajo propone una versión escalable de CopulaGNN para la predicción de signos en enlaces mediante el modelado de dependencias estadísticas entre aristas usando copulas gaussianas, optimizando la eficiencia computacional y la convergencia mediante la representación de la matriz de correlación como un gramiano de incrustaciones y la reformulación de la distribución de probabilidad condicional.

Jinkyu Sung, Myunggeum Jee, Joonseok Lee2026-03-06💻 cs

Improved Convergence Rates of Muon Optimizer for Nonconvex Optimization

Este trabajo establece garantías de convergencia más agudas y precisas para el optimizador Muon mediante un análisis directo que elimina suposiciones restrictivas, logrando tasas de convergencia más rápidas y abarcando un conjunto más amplio de configuraciones de problemas no convexos.

Shuntaro Nagashima, Hideaki Iiduka2026-03-06🔢 math

Latent-IMH: Efficient Bayesian Inference for Inverse Problems with Approximate Operators

El artículo presenta Latent-IMH, un método de muestreo eficiente para problemas inversos bayesianos con operadores costosos que utiliza una aproximación para generar variables latentes y un operador exacto para refinarlas, logrando una eficiencia computacional superior a métodos como NUTS al trasladar la mayor carga de cálculo a una fase previa.

Youguang Chen, George Biros2026-03-06🔢 math

Mobility-Embedded POIs: Learning What A Place Is and How It Is Used from Human Movement

El artículo presenta ME-POIs, un marco que mejora las representaciones de los puntos de interés al combinar embeddings de lenguaje con datos de movilidad humana a gran escala para capturar tanto la identidad como la función de los lugares, superando así a los enfoques basados únicamente en texto o en trayectorias en diversas tareas de enriquecimiento de mapas.

Maria Despoina Siampou, Shushman Choudhury, Shang-Ling Hsu + 2 more2026-03-06💻 cs

YuriiFormer: A Suite of Nesterov-Accelerated Transformers

El artículo presenta YuriiFormer, un marco variacional que interpreta las capas de los transformadores como iteraciones de un algoritmo de optimización, lo que permite diseñar arquitecturas aceleradas por Nesterov que superan consistentemente a las baselines estándar en tareas de lenguaje.

Aleksandr Zimin, Yury Polyanskiy, Philippe Rigollet2026-03-06🔢 math

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

Este artículo presenta MiTA Attention, un mecanismo eficiente que unifica métodos de atención existentes bajo una perspectiva de escalado de pesos rápidos y propone una estrategia de compresión y enrutamiento que reduce la complejidad mediante la agrupación de los pares clave-valor más activos para consultas clave.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

El artículo presenta VIP, una estrategia de asignación de trayectorias basada en la varianza que utiliza modelos de procesos gaussianos para optimizar dinámicamente la distribución del presupuesto computacional en el aprendizaje por refuerzo en línea, mejorando así la eficiencia de muestreo y el rendimiento en comparación con métodos de asignación uniforme.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

Position: Beyond Model-Centric Prediction -- Agentic Time Series Forecasting

Este artículo propone el paradigma de "pronóstico temporal con agentes" (ATSF), que trasciende la predicción estática tradicional al replantear el proceso como un flujo de trabajo dinámico e interactivo que integra percepción, planificación, acción, reflexión y memoria para adaptarse continuamente a entornos complejos.

Mingyue Cheng, Xiaoyu Tao, Qi Liu + 2 more2026-03-06💻 cs

On the Non-Identifiability of Steering Vectors in Large Language Models

El artículo demuestra que los vectores de dirección en los grandes modelos de lenguaje son fundamentalmente no identificables, ya que existen múltiples intervenciones geométricamente distintas pero comportamentalmente indistinguibles que logran efectos similares, lo que impone límites fundamentales a la interpretabilidad y el control de estos modelos.

Sohan Venkatesh, Ashish Mahendran Kurapath2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

LatentChem introduce una interfaz de razonamiento latente que desacopla el cálculo químico de la generación textual, permitiendo a los modelos realizar inferencias complejas en un espacio continuo que resulta ser más eficiente y preciso que los métodos tradicionales de Cadena de Pensamiento (CoT) explícito.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

← Anterior Siguiente →