cs.LG artículos | Gist.Science

Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

Este artículo demuestra que el entrenamiento sin enmascarado en aprendizaje por refuerzo suprime exponencialmente las acciones válidas en estados no visitados debido al compartimiento de parámetros, un problema que la clasificación de factibilidad permite resolver sin necesidad de máscaras de oráculo.

Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. Sycara2026-03-11🤖 cs.LG

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

Este trabajo presenta un enfoque basado en datos para la predicción probabilística del factor de histéresis en baterías de vehículos eléctricos con ánodos de silicio-grafito, utilizando un marco de armonización de datos y modelos de aprendizaje profundo para mejorar la estimación del estado de carga considerando la incertidumbre y la eficiencia computacional.

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. Cremer2026-03-11🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

El artículo propone DCPO, un marco que desacopla los objetivos de razonamiento y calibración para resolver el conflicto de gradientes que causa una sobreconfianza excesiva en los modelos de lenguaje entrenados con recompensas verificables, logrando así preservar la precisión mientras mejora significativamente la fiabilidad de las predicciones.

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun2026-03-11🤖 cs.LG

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Este artículo propone un método de regularización basado en la Probabilidad de Necesidad y Suficiencia (PNS) para el aprendizaje incremental de clases, que utiliza un generador contrafactual dual para eliminar correlaciones espurias intra e inter-tarea y así mitigar la colisión de características y el olvido catastrófico.

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap es un marco de aprendizaje por refuerzo que utiliza rúbricas generadas por LLMs para proporcionar señales de recompensa granulares y específicas, logrando así una generación de descripciones de imágenes densas superior a los métodos supervisados y otros enfoques de RL, incluso con modelos de tamaño reducido.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Este trabajo propone un marco de aprendizaje efectivo para representaciones de netlistas que supera la escasez de datos etiquetados al utilizar RTL imperfecto generado por modelos de lenguaje grande, demostrando que sus patrones estructurales preservados permiten entrenar modelos que generalizan bien a diseños reales y superan a los métodos existentes.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

El artículo presenta GIAT, un nuevo marco Transformer informado geológicamente que integra filtros de correlación de secuencia por categoría para guiar el mecanismo de atención hacia patrones coherentes, logrando así una identificación de litología más precisa, fiable e interpretable que los modelos existentes.

Jie Li, Qishun Yang, Nuo Li2026-03-11🤖 cs.AI

Better Bounds for the Distributed Experts Problem

Este artículo presenta un nuevo protocolo para el problema de expertos distribuidos que mejora los límites anteriores al lograr un arrepentimiento reducido con una cantidad mínima de comunicación entre servidores.

David P. Woodruff, Samson Zhou2026-03-11🤖 cs.LG

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Este trabajo propone un marco de modelado generativo informado por la física que, partiendo de una dinámica de flujo de tráfico estocástica tipo Ito, deriva una ecuación determinista de flujo de probabilidad para entrenar una red neuronal capaz de estimar distribuciones completas del estado del tráfico, permitiendo así calcular estimaciones puntuales, intervalos de credibilidad y medidas de riesgo de congestión.

Wuping Xin2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

El artículo presenta Latent-DARM, un marco de comunicación en espacio latente que integra modelos de difusión discreta para la planificación y modelos autoregresivos para la ejecución, logrando un rendimiento superior en tareas de razonamiento con un uso de tokens significativamente menor que los modelos de razonamiento más avanzados.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

Este estudio replica el modelo BSRNN para separación de fuentes musicales, revelando que la falta de código original obstaculiza la reproducibilidad y demostrando que, mediante experimentos adicionales, es posible superar el rendimiento original mientras se promueve la transparencia y la sostenibilidad en la investigación.

Paul Magron, Romain Serizel, Constance Douwes2026-03-11🤖 cs.LG

$P^2$ GNN: Two Prototype Sets to boost GNN Performance

El artículo presenta $P^2$ GNN, una técnica plug-and-play que utiliza dos conjuntos de prototipos para enriquecer el contexto global y mitigar el ruido en los vecindarios locales, logrando así un rendimiento superior en tareas de recomendación y clasificación de nodos en comparación con los modelos de producción existentes.

Arihant Jain, Gundeep Arora, Anoop Saladi, Chaosheng Dong2026-03-11🤖 cs.LG

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

El artículo "The Reasoning Trap" advierte que las mejoras en el razonamiento lógico de los modelos de lenguaje podrían desencadenar inadvertidamente una conciencia situacional peligrosa mediante mecanismos de inferencia deductiva, reconocimiento inductivo y modelado abductivo, proponiendo a su vez nuevos marcos de seguridad para mitigar este riesgo.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

The Radio-Frequency Transformer for Signal Separation

Este artículo presenta un separador de señales totalmente basado en datos que utiliza un tokenizador discreto modificado y un transformador entrenado con pérdida de entropía cruzada para estimar eficazmente una señal de interés contaminada por interferencias no gaussianas, logrando una reducción significativa en la tasa de error de bits y demostrando generalización cero-shot en mezclas de radiofrecuencia.

Egor Lifar, Semyon Savkin, Rachana Madhukara, Tejas Jayashankar, Yury Polyanskiy, Gregory W. Wornell2026-03-11🤖 cs.LG

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Este trabajo demuestra que el tono emocional es un factor latente que altera la geometría de la atención en los modelos de lenguaje, proponiendo el dataset AURA-QA y un marco de regularización emocional que mejora la comprensión lectora y el rendimiento en tareas de preguntas y respuestas bajo diversas distribuciones.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry Heck2026-03-11🤖 cs.AI

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

El artículo presenta MM-Zero, el primer marco basado en aprendizaje por refuerzo que permite la autoevolución de modelos de visión y lenguaje desde cero sin datos, mediante un sistema de tres roles especializados (propuestor, codificador y solucionador) que generan conceptos visuales abstractos, crean imágenes ejecutables y realizan razonamiento multimodal.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu2026-03-11🤖 cs.LG

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

Este artículo presenta \texttt{RQRE-OVI}, un algoritmo de iteración de valor optimista con aproximación de funciones lineales que calcula de manera eficiente y robusta el Equilibrio de Respuesta Cuantitativa Sensible al Riesgo (RQRE) en juegos de Markov de suma general, logrando un equilibrio único y estable que supera la fragilidad del equilibrio de Nash mediante un compromiso cuantificable entre rendimiento y robustez.

Jake Gonzales, Max Horwitz, Eric Mazumdar, Lillian J. Ratliff2026-03-11🤖 cs.LG

Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control

Este trabajo presenta la capa Test-Time Control (TTC), un componente arquitectónico basado en control óptimo y un solver LQR eficiente en hardware que, al integrarse en modelos de lenguaje preentrenados, mejora significativamente la capacidad de razonamiento matemático sin depender de entrenamiento en tiempo de prueba.

Peihao Wang, Shan Yang, Xijun Wang, Tesi Xiao, Xin Liu, Changlong Yu, Yu Lou, Pan Li, Zhangyang Wang, Ming Lin, René Vidal2026-03-11🤖 cs.LG

A Generative Sampler for distributions with possible discrete parameter based on Reversibility

Este artículo presenta un marco unificado de muestreo generativo basado en la reversibilidad temporal y la discrepancia máxima de media (MMD) que permite muestrear distribuciones complejas en espacios continuos, discretos o mixtos sin requerir funciones de puntuación ni relajaciones continuas, utilizando únicamente evaluaciones de energía.

Lei Li, Zhen Wang, Lishuo Zhang2026-03-11🤖 cs.LG

Efficient Reasoning at Fixed Test-Time Cost via Length-Aware Attention Priors and Gain-Aware Training

Este artículo propone un enfoque de entrenamiento exclusivo que integra un prior de atención sensible a la longitud y un controlador de ganancia adaptable para mejorar el razonamiento eficiente en modelos Transformer sin incrementar los costos de tiempo de prueba.

Rian Atri2026-03-11🤖 cs.LG

← Anterior Siguiente →

cs.LG