cs.LG artículos | Gist.Science

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Este artículo presenta la Two-Bridge Map Suite, un nuevo entorno de código abierto para StarCraft II diseñado como un punto intermedio accesible que aísla habilidades tácticas clave sin los costos computacionales del juego completo, permitiendo así una investigación más eficiente en aprendizaje por refuerzo.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

Valid Feature-Level Inference for Tabular Foundation Models via the Conditional Randomization Test

Este artículo presenta un enfoque práctico que combina la Prueba de Aleatorización Condicional (CRT) con el modelo fundacional TabPFN para generar valores p válidos en muestras finitas que evalúan la relevancia condicional de características en datos tabulares, sin necesidad de reentrenamiento ni suposiciones paramétricas.

Mohamed Salem2026-03-10🤖 cs.LG

CapTrack: Multifaceted Evaluation of Forgetting in LLM Post-Training

El artículo presenta CapTrack, un marco de evaluación centrado en capacidades que redefine el olvido en la post-entrenamiento de modelos de lenguaje grandes como una deriva conductual sistemática y revela, mediante un estudio a gran escala, que este fenómeno afecta significativamente la robustez y los comportamientos predeterminados más allá del conocimiento paramétrico, con variaciones notables según el algoritmo y la familia del modelo.

Lukas Thede, Stefan Winzeck, Zeynep Akata, Jonathan Richard Schwarz2026-03-10🤖 cs.LG

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

Este artículo presenta DeepScope, un sistema de aprendizaje profundo que analiza imágenes microscópicas de muestras de agua no incubadas para detectar contaminación fecal en segundos con un costo de $0.44 por prueba, superando los requisitos de la UNICEF y logrando una precisión del 90% y un recall superior al 94%.

Sanjay Srinivasan2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

El artículo demuestra que, a diferencia de los dominios verificables, las estrategias de consenso mediante múltiples muestras no mejoran la veracidad de los modelos de lenguaje en dominios no verificados debido a que los errores de los modelos están fuertemente correlacionados y la confianza autoinformada no distingue adecuadamente entre respuestas correctas e incorrectas.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

El artículo presenta OptiRoulette, un meta-optimizador estocástico que selecciona dinámicamente reglas de actualización durante el entrenamiento, logrando una convergencia hasta 5.3 veces más rápida y mejoras significativas en la precisión de prueba en comparación con AdamW en múltiples conjuntos de datos de clasificación de imágenes.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

Este artículo propone una representación unificada de los modelos de difusión y el emparejamiento de flujos mediante ecuaciones lineales, revelando que la correlación entre los datos ruidosos y el objetivo predicho puede ser débil, lo cual podría afectar el proceso de aprendizaje.

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

Este artículo presenta el marco Annealed Co-Generation (ACG), que facilita la co-generación multivariada en aplicaciones científicas mediante el modelado progresivo de pares de variables con difusión de baja dimensión y un proceso de recocido de tres etapas, evitando así la carga computacional y el desequilibrio de datos inherentes a los modelos conjuntos de alta dimensión.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models

El artículo presenta RACER, un método de enrutamiento de modelos de lenguaje grande que aborda el problema de la selección de modelos como un problema de riesgo controlado, generando conjuntos anidados de modelos calibrados para minimizar el error de enrutamiento y mejorar la precisión sin depender de supuestos distribucionales.

Sai Hao, Hao Zeng, Hongxin Wei, Bingyi Jing2026-03-10🤖 cs.LG

Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance

El artículo presenta Evo, un modelo de lenguaje autoregresivo-difusivo que unifica ambos paradigmas en un flujo latente evolutivo para equilibrar dinámicamente la planificación y el refinamiento, logrando un rendimiento de vanguardia en diversas tareas manteniendo una alta velocidad de inferencia.

Junde Wu, Minhao Hu, Jiayuan Zhu, Yuyuan Liu, Tianyi Zhang, Kang Li, Jingkun Chen, Jiazhen Pan, Min Xu, Yueming Jin2026-03-10🤖 cs.LG

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

Este artículo presenta un marco novedoso para la predicción de interacciones en redes biológicas multiplex que, mediante el aprendizaje de representaciones conscientes del contexto, la destilación de conocimiento y el uso de modelos fundacionales, supera a los métodos actuales al lograr una generalización robusta en escenarios de cero disparos para entidades no vistas.

Alana Deng, Sugitha Janarthanan, Yan Sun, Zihao Jing, Pingzhao Hu2026-03-10🤖 cs.LG

Not all tokens are needed(NAT): token efficient reinforcement learning

El artículo presenta NAT, un marco unificado que optimiza el aprendizaje por refuerzo en modelos de lenguaje al actualizar la política utilizando solo un subconjunto de tokens mediante un estimador de gradiente no sesgado, logrando un rendimiento comparable al método completo con una reducción significativa en costos computacionales y uso de memoria.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-10🤖 cs.LG

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

El artículo presenta GraphSkill, un marco de codificación guiado por agentes que mejora el razonamiento sobre grafos complejos mediante una recuperación jerárquica de documentación técnica y un agente de autodepuración que utiliza casos de prueba generados automáticamente, todo ello respaldado por un nuevo dataset de evaluación.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang Wang2026-03-10🤖 cs.LG

Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models

Este artículo demuestra que los Modelos de Recompensa de Proceso (PRM) actuales son vulnerables a ataques adversarios al priorizar la fluidez sobre la lógica real, por lo que propone un marco de diagnóstico de tres niveles y herramientas de código abierto para evaluar y mitigar estas falencias antes de su implementación.

Rishabh Tiwari, Aditya Tomar, Udbhav Bamba, Monishwaran Maheswaran, Heng Yang, Michael W. Mahoney, Kurt Keutzer, Amir Gholami2026-03-10🤖 cs.LG

From ARIMA to Attention: Power Load Forecasting Using Temporal Deep Learning

Este artículo demuestra que el modelo Transformer, basado en mecanismos de atención, supera a los enfoques tradicionales como ARIMA y a otras redes neuronales recurrentes (LSTM y BiLSTM) en la predicción de la carga eléctrica a corto plazo, logrando un error porcentual medio absoluto (MAPE) del 3,8% en datos de PJM.

Suhasnadh Reddy Veluru, Sai Teja Erukude, Viswa Chaitanya Marella2026-03-10🤖 cs.LG

Advances in GRPO for Generation Models: A Survey

Esta encuesta ofrece una revisión exhaustiva de Flow-GRPO, un marco de aprendizaje por refuerzo que extiende la optimización de políticas relativas grupales a modelos generativos de flujo, analizando sus avances metodológicos y sus aplicaciones en diversas modalidades como imágenes, video, audio y modelos multimodales para alinear las salidas con preferencias humanas.

Zexiang Liu, Xianglong He, Yangguang Li2026-03-10🤖 cs.LG

Exploration Space Theory: Formal Foundations for Prerequisite-Aware Location-Based Recommendation

Este artículo presenta la Teoría del Espacio de Exploración (EST), un marco formal basado en retículos que adapta la Teoría del Espacio de Conocimiento para los sistemas de recomendación basados en ubicación, garantizando matemáticamente que las sugerencias respeten las dependencias semánticas y de prerequisitos entre puntos de interés.

Madjid Sadallah2026-03-10🤖 cs.LG

Pavement Missing Condition Data Imputation through Collective Learning-Based Graph Neural Networks

Este artículo presenta un modelo de redes neuronales gráficas basado en aprendizaje colectivo que integra las características de las secciones adyacentes y sus dependencias para imputar eficazmente los datos faltantes en las condiciones del pavimento, superando las limitaciones de los métodos tradicionales.

Ke Yu, Lu Gao2026-03-10🤖 cs.LG

Grouter: Decoupling Routing from Representation for Accelerated MoE Training

El artículo presenta Grouter, un método de enrutamiento preventivo que desacopla la optimización estructural de las actualizaciones de pesos mediante la destilación de estructuras de modelos MoE ya entrenados, logrando acelerar significativamente la convergencia y el rendimiento del entrenamiento.

Yuqi Xu, Rizhen Hu, Zihan Liu, Mou Sun, Kun Yuan2026-03-10🤖 cs.LG

T-REX: Transformer-Based Category Sequence Generation for Grocery Basket Recommendation

El artículo presenta T-REX, una arquitectura basada en transformadores diseñada para Amazon que mejora las recomendaciones de carritos de compras en línea mediante la generación de secuencias de categorías personalizadas, resolviendo desafíos como patrones repetitivos y dependencias temporales mediante innovaciones en muestreo, codificación posicional y modelado causal.

Soroush Mokhtari, Muhammad Tayyab Asif, Sergiy Zubatiy2026-03-10🤖 cs.LG

← Anterior Siguiente →