cs.LG artículos | Gist.Science

Mem-T: Densifying Rewards for Long-Horizon Memory Agents

El artículo presenta Mem-T, un agente de memoria autónomo que utiliza el marco de aprendizaje por refuerzo MoT-GRPO para transformar las recompensas dispersas en supervisión densa, logrando así una optimización integral de la gestión de memoria que supera a los enfoques existentes en rendimiento y eficiencia.

Yanwei Yue, Boci Peng, Xuanbo Fan, Jiaxin Guo, Qiankun Li, Yan Zhang2026-03-10🤖 cs.LG

Bitcoin Price Prediction using Machine Learning and Combinatorial Fusion Analysis

Este trabajo propone un nuevo paradigma de fusión de modelos llamado Análisis de Fusión Combinatoria (CFA) para predecir el precio de Bitcoin, logrando un rendimiento superior al de los modelos individuales y otros métodos existentes con un error porcentual absoluto medio (MAPE) de 0,19%.

Yuanhong Wu, Wei Ye, Jingyan Xu, D. Frank Hsu2026-03-10🤖 cs.LG

In-Run Data Shapley for Adam Optimizer

Este trabajo propone el "Adam-Aware In-Run Data Shapley", un método que supera las limitaciones de los enfoques basados en SGD para estimar la atribución de datos en optimizadores adaptativos como Adam, logrando una fidelidad casi perfecta y una alta eficiencia computacional mediante una aproximación linealizada de gradientes.

Meng Ding, Zeqing Zhang, Di Wang, Lijie Hu2026-03-10🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Este estudio demuestra que, en la detección de valores humanos a nivel de oración, la estructura de valores de orden superior de Schwartz funciona mejor como un sesgo inductivo que como una regla de enrutamiento rígida, siendo las mejoras más significativas obtenidas mediante técnicas de calibración y ensamble en lugar de arquitecturas jerárquicas complejas.

Víctor Yeste, Paolo Rosso2026-03-10🤖 cs.LG

LatentMem: Customizing Latent Memory for Multi-Agent Systems

El artículo presenta LatentMem, un marco de memoria multiagente aprendible que supera las limitaciones de homogeneización y sobrecarga de información mediante la síntesis de memorias latentes específicas para cada agente y la optimización de políticas, logrando mejoras significativas en el rendimiento sin modificar los sistemas existentes.

Muxin Fu, Xiangyuan Xue, Yafu Li, Zefeng He, Siyuan Huang, Xiaoye Qu, Yu Cheng, Yang Yang2026-03-10🤖 cs.LG

Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

El artículo presenta T2T, un marco de recompensa dinámica inspirado en el aprendizaje humano que mejora el razonamiento de los modelos de lenguaje mediante un mecanismo de doble fase que fomenta la exploración en intentos incorrectos y penaliza la redundancia una vez alcanzada la corrección, logrando un rendimiento superior en benchmarks matemáticos.

Wenze Lin, Zhen Yang, Xitai Jiang, Pony Ma, Gao Huang2026-03-10🤖 cs.LG

Inference-Time Backdoors via Hidden Instructions in LLM Chat Templates

Este artículo demuestra que es posible implantar puertas traseras en modelos de lenguaje de peso abierto mediante la manipulación de sus plantillas de chat, lo que permite activar comportamientos maliciosos durante la inferencia sin modificar los pesos del modelo ni controlar la infraestructura de despliegue.

Ariel Fogel, Omer Hofman, Eilon Cohen, Roman Vainshtein2026-03-10🤖 cs.LG

Hinge Regression Tree: A Newton Method for Oblique Regression Tree Splitting

El artículo presenta el Árbol de Regresión Hinge (HRT), un método basado en Newton que reformula la división de nodos en árboles de decisión oblicuos como un problema de mínimos cuadrados no lineales, logrando convergencia rápida y garantizada mientras ofrece un aproximador universal con estructuras más compactas que los métodos existentes.

Hongyi Li, Han Lin, Jun Xu2026-03-10🤖 cs.LG

Radial Müntz-Szász Networks: Neural Architectures with Learnable Power Bases for Multidimensional Singularities

El artículo presenta las Redes Radiales de Müntz-Szász (RMN), una arquitectura neuronal con bases de potencia radiales aprendibles que modelan con alta precisión y eficiencia campos singulares multidimensionales, superando significativamente a las redes neuronales tradicionales en términos de error y número de parámetros.

Gnankan Landry Regis N'guessan, Bum Jun Kim2026-03-10🤖 cs.LG

SDFed: Bridging Local Global Discrepancy via Subspace Refinement and Divergence Control in Federated Prompt Learning

El artículo presenta SDFed, un marco de aprendizaje federado heterogéneo que mejora la adaptación de modelos visión-idioma mediante prompts globales fijos y locales variables, utilizando refinamiento de subespacio y control de divergencia para resolver las discrepancias entre datos locales y globales en entornos con recursos limitados.

Yicheng Di, Wei Yuan, Tieke He, Yuan Liu, Hongzhi Yin2026-03-10🤖 cs.LG

Retrieval Pivot Attacks in Hybrid RAG: Measuring and Mitigating Amplified Leakage from Vector Seeds to Graph Expansion

Este artículo identifica y cuantifica el riesgo de "Retrieval Pivot" en los sistemas híbridos RAG, donde la combinación de búsqueda vectorial y expansión de grafos permite filtraciones de datos entre inquilinos sin necesidad de inyección maliciosa, demostrando que aplicar controles de autorización en el límite de expansión del grafos mitiga eficazmente estas fugas con un mínimo sobrecosto.

Scott Thornton2026-03-10🤖 cs.LG

Diffusion-Guided Pretraining for Brain Graph Foundation Models

Este trabajo propone un marco unificado de preentrenamiento basado en difusión para modelos fundamentales de grafos cerebrales que supera las limitaciones de los métodos existentes al guiar estrategias de enmascaramiento y reconstrucción que preservan los patrones de conectividad semántica y capturan información estructural global, logrando mejoras consistentes en múltiples conjuntos de datos neuroimagenarios.

Xinxu Wei, Rong Zhou, Lifang He, Yu Zhang2026-03-10🤖 cs.LG

Learning Page Order in Shuffled WOO Releases

Este estudio evalúa métodos de aprendizaje automático para reordenar páginas en documentos WOO neerlandeses desordenados, identificando que los modelos especializados superan a las arquitecturas seq2seq y al aprendizaje curricular, especialmente en documentos largos donde las señales semánticas son poco fiables.

Efe Kahraman, Giulio Tosato2026-03-10🤖 cs.LG

Discovering Semantic Latent Structures in Psychological Scales: A Response-Free Pathway to Efficient Simplification

Este artículo presenta un marco de modelado de temas que utiliza la estructura semántica de los ítems mediante embeddings contextuales y agrupamiento para simplificar escalas psicológicas sin necesidad de datos de respuesta, logrando una reducción del 60,5% en la longitud de las escalas mientras se mantiene la validez psicométrica y la coherencia estructural.

Bo Wang, Yuxuan Zhang, Yueqin Hu, Hanchao Hou, Kaiping Peng, Shiguang Ni2026-03-10🤖 cs.LG

TrasMuon: Trust-Region Adaptive Scaling for Orthogonalized Momentum Optimizers

El artículo presenta TrasMuon, un optimizador que mejora la estabilidad y velocidad de convergencia de los métodos Muon al preservar su geometría ortogonalizada mientras introduce una calibración global y un recorte de región de confianza basado en la energía para mitigar la sensibilidad a la magnitud de los pasos y los picos de alta energía.

Peng Cheng, Jiucheng Zang, Qingnan Li, Liheng Ma, Yufei Cui, Yingxue Zhang, Boxing Chen, Ming Jian, Wen Tong2026-03-10🤖 cs.LG

Benchmark Leakage Trap: Can We Trust LLM-based Recommendation?

Este artículo identifica y demuestra que la filtración de datos en conjuntos de benchmark durante el preentrenamiento o ajuste fino de modelos de lenguaje grandes (LLM) genera métricas de rendimiento artificialmente infladas o degradadas en sistemas de recomendación, comprometiendo así la fiabilidad de las evaluaciones actuales.

Mingqiao Zhang, Qiyao Peng, Yumeng Wang, Chunyuan Liu, Hongtao Liu2026-03-10🤖 cs.LG

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

Este trabajo presenta la Política de Velocidad Media (MVP), un nuevo método de política generativa que, mediante una restricción de velocidad instantánea, logra la generación de acciones en un solo paso con alta expresividad y velocidad, superando el estado del arte en tareas de manipulación robótica.

Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li2026-03-10🤖 cs.LG

Pawsterior: Variational Flow Matching for Structured Simulation-Based Inference

El artículo presenta Pawsterior, un marco de coincidencia de flujos variacionales que mejora la inferencia basada en simulación al incorporar directamente la geometría de dominios estructurados y permitir la inferencia de variables latentes discretas, superando así las limitaciones de los métodos de flujo convencionales.

Jorge Carrasco-Pollo, Floor Eijkelboom, Jan-Willem van de Meent2026-03-10🤖 cs.LG

Why Code, Why Now: Learnability, Computability, and the Real Limits of Machine Learning

Este artículo propone una jerarquía de cinco niveles de aprendibilidad basada en la estructura de la información para explicar por qué la generación de código escala de manera predecible gracias a su retroalimentación densa y verificable, mientras que el aprendizaje por refuerzo enfrenta límites fundamentales que no se resuelven simplemente aumentando el tamaño de los modelos.

Zhimin Zhao2026-03-10🤖 cs.LG

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

El artículo presenta LongAudio-RAG, un marco híbrido que mejora la respuesta a preguntas sobre audios de larga duración al fundamentar las respuestas de los modelos de lenguaje en eventos acústicos recuperados de una base de datos SQL, permitiendo un despliegue eficiente en entornos edge-cloud con alta precisión y baja alucinación.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser2026-03-10🤖 cs.LG

← Anterior Siguiente →