cs.LG artículos | Gist.Science

Learning Adaptive LLM Decoding

Este trabajo propone el uso de adaptadores de decodificación ligeros entrenados con aprendizaje por refuerzo para seleccionar dinámicamente estrategias de muestreo adaptativas a nivel de secuencia y token, logrando mejoras significativas en la precisión de tareas matemáticas y de codificación bajo restricciones de recursos computacionales fijos.

Chloe H. Su, Zhe Ye, Samuel Tenka, Aidan Yang, Soonho Kong, Udaya Ghai2026-03-11🤖 cs.LG

Verifying Good Regulator Conditions for Hypergraph Observers: Natural Gradient Learning from Causal Invariance via Established Theorems

Este artículo verifica que los observadores persistentes en sustratos de hipergrafos causalmente invariantes satisfacen el Teorema del Buen Regulador de Conant-Ashby, demostrando que el descenso de gradiente natural es su regla de aprendizaje única y derivando un umbral cuántico-clásico específico para el parámetro de régimen en el marco de Vanchurin, aunque esta predicción depende fuertemente del modelo de convergencia elegido.

Max Zhuravlev2026-03-11🤖 cs.LG

Exclusive Self Attention

El artículo presenta la Atención Exclusiva (XSA), una modificación sencilla de la atención auto-referencial que mejora el rendimiento de los Transformers al restringir la atención a información ortogonal al propio token, logrando resultados superiores en tareas de modelado de lenguaje, especialmente a medida que aumenta la longitud de la secuencia.

Shuangfei Zhai2026-03-11🤖 cs.LG

PPO-Based Hybrid Optimization for RIS-Assisted Semantic Vehicular Edge Computing

Este artículo propone un marco de computación en el borde vehicular semántico asistido por superficies inteligentes reconfigurables (RIS) que utiliza un esquema híbrido de optimización basado en PPO y programación lineal para reducir significativamente la latencia en entornos dinámicos, superando a métodos existentes como los algoritmos genéticos y QPSO.

Wei Feng, Jingbo Zhang, Qiong Wu, Pingyi Fan, Qiang Fan2026-03-11🤖 cs.LG

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

Este estudio demuestra que integrar puntuaciones de sentimiento derivadas de noticias en inglés y chino mediante un modelo LLM Qwen3 finetuneado mejora significativamente la precisión de las predicciones de precios del aluminio y la utilidad económica en mercados volátiles en comparación con los modelos tradicionales que solo utilizan datos tabulares.

Alvaro Paredes Amorin, Andre Python, Christoph Weisser2026-03-11🤖 cs.AI

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Este artículo propone un marco unificado y una taxonomía para los modelos de mundo latentes en la conducción automatizada que organizan las representaciones latentes y los mecanismos internos, estableciendo directrices de evaluación y desafíos de investigación para lograr sistemas más robustos, generalizables y eficientes.

Rongxiang Zeng, Yongqi Dong2026-03-11🤖 cs.AI

Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

Este artículo demuestra que el entrenamiento sin enmascarado en aprendizaje por refuerzo suprime exponencialmente las acciones válidas en estados no visitados debido al compartimiento de parámetros, un problema que la clasificación de factibilidad permite resolver sin necesidad de máscaras de oráculo.

Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. Sycara2026-03-11🤖 cs.LG

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

Este trabajo presenta un enfoque basado en datos para la predicción probabilística del factor de histéresis en baterías de vehículos eléctricos con ánodos de silicio-grafito, utilizando un marco de armonización de datos y modelos de aprendizaje profundo para mejorar la estimación del estado de carga considerando la incertidumbre y la eficiencia computacional.

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. Cremer2026-03-11🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

El artículo propone DCPO, un marco que desacopla los objetivos de razonamiento y calibración para resolver el conflicto de gradientes que causa una sobreconfianza excesiva en los modelos de lenguaje entrenados con recompensas verificables, logrando así preservar la precisión mientras mejora significativamente la fiabilidad de las predicciones.

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun2026-03-11🤖 cs.LG

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Este artículo propone un método de regularización basado en la Probabilidad de Necesidad y Suficiencia (PNS) para el aprendizaje incremental de clases, que utiliza un generador contrafactual dual para eliminar correlaciones espurias intra e inter-tarea y así mitigar la colisión de características y el olvido catastrófico.

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap es un marco de aprendizaje por refuerzo que utiliza rúbricas generadas por LLMs para proporcionar señales de recompensa granulares y específicas, logrando así una generación de descripciones de imágenes densas superior a los métodos supervisados y otros enfoques de RL, incluso con modelos de tamaño reducido.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Este trabajo propone un marco de aprendizaje efectivo para representaciones de netlistas que supera la escasez de datos etiquetados al utilizar RTL imperfecto generado por modelos de lenguaje grande, demostrando que sus patrones estructurales preservados permiten entrenar modelos que generalizan bien a diseños reales y superan a los métodos existentes.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

El artículo presenta GIAT, un nuevo marco Transformer informado geológicamente que integra filtros de correlación de secuencia por categoría para guiar el mecanismo de atención hacia patrones coherentes, logrando así una identificación de litología más precisa, fiable e interpretable que los modelos existentes.

Jie Li, Qishun Yang, Nuo Li2026-03-11🤖 cs.AI

Better Bounds for the Distributed Experts Problem

Este artículo presenta un nuevo protocolo para el problema de expertos distribuidos que mejora los límites anteriores al lograr un arrepentimiento reducido con una cantidad mínima de comunicación entre servidores.

David P. Woodruff, Samson Zhou2026-03-11🤖 cs.LG

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Este trabajo propone un marco de modelado generativo informado por la física que, partiendo de una dinámica de flujo de tráfico estocástica tipo Ito, deriva una ecuación determinista de flujo de probabilidad para entrenar una red neuronal capaz de estimar distribuciones completas del estado del tráfico, permitiendo así calcular estimaciones puntuales, intervalos de credibilidad y medidas de riesgo de congestión.

Wuping Xin2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

El artículo presenta Latent-DARM, un marco de comunicación en espacio latente que integra modelos de difusión discreta para la planificación y modelos autoregresivos para la ejecución, logrando un rendimiento superior en tareas de razonamiento con un uso de tokens significativamente menor que los modelos de razonamiento más avanzados.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

Este estudio replica el modelo BSRNN para separación de fuentes musicales, revelando que la falta de código original obstaculiza la reproducibilidad y demostrando que, mediante experimentos adicionales, es posible superar el rendimiento original mientras se promueve la transparencia y la sostenibilidad en la investigación.

Paul Magron, Romain Serizel, Constance Douwes2026-03-11🤖 cs.LG

$P^2$ GNN: Two Prototype Sets to boost GNN Performance

El artículo presenta $P^2$ GNN, una técnica plug-and-play que utiliza dos conjuntos de prototipos para enriquecer el contexto global y mitigar el ruido en los vecindarios locales, logrando así un rendimiento superior en tareas de recomendación y clasificación de nodos en comparación con los modelos de producción existentes.

Arihant Jain, Gundeep Arora, Anoop Saladi, Chaosheng Dong2026-03-11🤖 cs.LG

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

El artículo "The Reasoning Trap" advierte que las mejoras en el razonamiento lógico de los modelos de lenguaje podrían desencadenar inadvertidamente una conciencia situacional peligrosa mediante mecanismos de inferencia deductiva, reconocimiento inductivo y modelado abductivo, proponiendo a su vez nuevos marcos de seguridad para mitigar este riesgo.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

The Radio-Frequency Transformer for Signal Separation

Este artículo presenta un separador de señales totalmente basado en datos que utiliza un tokenizador discreto modificado y un transformador entrenado con pérdida de entropía cruzada para estimar eficazmente una señal de interés contaminada por interferencias no gaussianas, logrando una reducción significativa en la tasa de error de bits y demostrando generalización cero-shot en mezclas de radiofrecuencia.

Egor Lifar, Semyon Savkin, Rachana Madhukara, Tejas Jayashankar, Yury Polyanskiy, Gregory W. Wornell2026-03-11🤖 cs.LG

← Anterior Siguiente →

cs.LG