cs.LG artículos | Gist.Science

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

El artículo presenta EDA, un marco teórico unificado que supera las limitaciones de los modelos de difusión basados en ruido gaussiano fijo al permitir el uso de ruido arbitrario para tareas de restauración de imágenes, logrando resultados competitivos en diversas aplicaciones médicas y naturales con un número reducido de pasos de muestreo.

Xingyu Qiu, Mengying Yang, Xinghua Ma + 6 more2026-03-06💻 cs

Structured quantum learning via em algorithm for Boltzmann machines

Este artículo presenta un algoritmo EM cuántico para entrenar máquinas de Boltzmann, el cual supera el problema de las mesetas áridas al evitar la optimización basada en gradientes y demuestra un aprendizaje estable y superior en máquinas de Boltzmann restringidas semi-cuánticas.

Takeshi Kimura, Kohtaro Kato, Masahito Hayashi2026-03-06⚛️ quant-ph

TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning from Human Feedback

El artículo presenta TIC-GRPO, un algoritmo de aprendizaje por refuerzo basado en retroalimentación humana que mejora la eficiencia y la convergencia de GRPO al sustituir los ratios de importancia a nivel de token por un ratio a nivel de trayectoria, ofreciendo además el primer análisis teórico de convergencia para este tipo de métodos.

Lei Pang, Jun Luo, Ruinan Jin2026-03-06💻 cs

Honest and Reliable Evaluation and Expert Equivalence Testing of Automated Neonatal Seizure Detection

Este estudio propone un marco riguroso para la evaluación honesta y fiable de los modelos de aprendizaje automático en la detección de convulsiones neonatales, identificando métricas equilibradas y pruebas de equivalencia experta, como la prueba de Turing multirater con Fleiss kappa, como esenciales para garantizar la comparabilidad y la futura adopción clínica.

Jovana Kljajic, John M. O'Toole, Robert Hogan + 1 more2026-03-06💻 cs

In-Training Defenses against Emergent Misalignment in Language Models

Este estudio presenta la primera evaluación sistemática de defensas durante el entrenamiento para mitigar el desalineamiento emergente en modelos de lenguaje ajustados mediante API, demostrando que intercalar datos de instrucción general seleccionados por la brecha de perplejidad entre modelos alineados y desalineados ofrece el mejor equilibrio entre seguridad, rendimiento y coherencia.

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings

El estudio demuestra que los rankings de los principales modelos de lenguaje son extremadamente sensibles a la eliminación de una fracción mínima de datos de preferencia, revelando que las evaluaciones de Chatbot Arena son más vulnerables a estos cambios que las de MT-bench, sin que exista una diferencia sistemática de robustez entre las evaluaciones humanas crowdsourced y las realizadas por modelos de lenguaje.

Jenny Y. Huang, Yunyi Shen, Dennis Wei + 1 more2026-03-06💻 cs

How Quantization Shapes Bias in Large Language Models

Este trabajo demuestra que la cuantización en grandes modelos de lenguaje tiene un impacto matizado en los sesgos, reduciendo la toxicidad pero aumentando ligeramente los estereotipos y la injusticia en tareas generativas, lo que subraya la necesidad de equilibrar la eficiencia con las consideraciones éticas.

Federico Marcuzzi, Xuefei Ning, Roy Schwartz + 1 more2026-03-06💻 cs

Multi-Agent Reinforcement Learning in Intelligent Transportation Systems: A Comprehensive Survey

Esta encuesta ofrece una visión integral del Aprendizaje por Refuerzo Multiagente en Sistemas de Transporte Inteligentes, abarcando su taxonomía, aplicaciones clave, plataformas de simulación y los principales desafíos para su implementación en el mundo real.

Rexcharles Donatus, Kumater Ter, Daniel Udekwe2026-03-06💻 cs

A Geometric Perspective on the Difficulties of Learning GNN-based SAT Solvers

Este artículo explica el deterioro del rendimiento de los solucionadores SAT basados en Redes Neuronales de Grafos (GNN) en instancias difíciles mediante un análisis geométrico que demuestra que la curvatura de Ricci negativa en los grafos bipartitos de fórmulas k-SAT provoca un "oversquashing" que impide capturar dependencias de largo alcance, estableciendo así la curvatura como un indicador predictivo de la complejidad del problema y del error de generalización.

Geri Skenderi2026-03-06🔬 physics

New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

Este trabajo propone un modelo de alineación basado en transporte óptimo no balanceado que aborda las asimetrías estructurales y el desajuste distribucional entre representaciones acústicas y lingüísticas para mejorar la transferencia de conocimiento en sistemas de reconocimiento automático de voz.

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

AttnBoost: Retail Supply Chain Sales Insights via Gradient Boosting Perspective

El artículo presenta AttnBoost, un marco de aprendizaje interpretable que integra un mecanismo de atención a nivel de características en el proceso de boosting para mejorar la precisión y la explicabilidad en la previsión de la demanda de productos en cadenas de suministro minoristas.

Yadi Liu, Xiaoli Ma, Muxin Ge + 6 more2026-03-06💻 cs

Topology Structure Optimization of Reservoirs Using GLMY Homology

Este artículo propone un método para optimizar el rendimiento de los reservorios mediante la modificación de los ciclos representativos de la homología GLMY unidimensional, demostrando experimentalmente que dicho rendimiento depende tanto de la estructura topológica del reservorio como de la periodicidad del conjunto de datos.

Yu Chen, Shengwei Wang, Hongwei Lin2026-03-06💻 cs

TabStruct: Measuring Structural Fidelity of Tabular Data

Este artículo presenta TabStruct, un marco de evaluación integral que introduce la métrica de utilidad global para medir la fidelidad estructural de los generadores de datos tabulares sin necesidad de estructuras causales reales, validado mediante un análisis a gran escala de 13 generadores en 29 conjuntos de datos.

Xiangjian Jiang, Nikola Simidjievski, Mateja Jamnik2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

El artículo presenta BabyHuBERT, un modelo de aprendizaje auto-supervisado entrenado con 13.000 horas de grabaciones multilingües de niños que supera a los modelos existentes en la clasificación de tipos de voz en contextos de desarrollo lingüístico infantil, especialmente en lenguas subrepresentadas.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

Este trabajo presenta un marco de aprendizaje basado en difusión que combina modelos generativos con control de impedancia consistente con la energía para adaptar dinámicamente la rigidez y el amortiguamiento en tareas de manipulación con contacto, logrando una alta precisión y un rendimiento robusto en tareas complejas como la inserción de clavijas en agujeros.

Noah Geiger, Tamim Asfour, Neville Hogan + 1 more2026-03-06💻 cs

Complexity-Regularized Proximal Policy Optimization

Este artículo presenta CR-PPO, un algoritmo de optimización de políticas que reemplaza la regularización de entropía estándar con un término de complejidad autorregulado (producto de entropía y desequilibrio) para mantener un equilibrio óptimo entre orden y aleatoriedad, logrando así una mayor robustez frente a la selección de hiperparámetros y reduciendo la necesidad de ajustes costosos.

Luca Serfilippi, Giorgio Franceschelli, Antonio Corradi + 1 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Este trabajo presenta Noise-to-Notes (N2N), un nuevo enfoque generativo basado en difusión que redefine la transcripción automática de batería como una tarea de generación condicional, logrando un nuevo estado del arte mediante el uso de una pérdida pseudo-Huber recocida para la optimización conjunta y la integración de características de modelos fundacionales de música para mejorar la robustez.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

BridgeDrive es una nueva política de planificación de trayectorias en bucle cerrado para la conducción autónoma que utiliza un puente de difusión guiado por anclajes para transformar trayectorias básicas en planes refinados y seguros, logrando un rendimiento superior al estado del arte en evaluaciones de conducción en tiempo real.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

Este artículo demuestra que el aprendizaje subliminal, mediante el cual los modelos de lenguaje transfieren sesgos ocultos durante la destilación, no requiere filtrado de logits ni entrelazamiento global, sino que depende de un pequeño conjunto de "tokens de divergencia" en las primeras capas del modelo y es altamente frágil ante cambios menores en el prompt.

Simon Schrodi, Elias Kempf, Fazl Barez + 1 more2026-03-06💻 cs

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

El artículo presenta BeyondBench, un marco de evaluación que genera problemas algorítmicos dinámicos e inmensamente variados para medir de forma resistente a la contaminación la capacidad de razonamiento real de los modelos de lenguaje, revelando deficiencias significativas en tareas complejas y la dependencia crítica del uso de herramientas.

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

← Anterior Siguiente →