cs.LG artículos | Gist.Science

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Este artículo presenta NePPO, un nuevo pipeline de optimización de políticas para juegos de suma general que aprende una función de potencial independiente del jugador para aproximar equilibrios de Nash en entornos mixtos cooperativos-competitivos, demostrando un rendimiento superior frente a métodos baselines populares.

Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay Maheshwari2026-03-10🤖 cs.LG

Diffusion Controller: Framework, Algorithms and Parameterization

El artículo presenta Diffusion Controller (DiffCon), un marco unificado basado en teoría de control que reformula la generación difusiva como un problema de control estocástico, permitiendo el ajuste fino eficiente mediante algoritmos de aprendizaje por refuerzo y una arquitectura de red lateral que supera a métodos existentes como LoRA.

Tong Yang, Moonkyung Ryu, Chih-Wei Hsu, Guy Tennenholtz, Yuejie Chi, Craig Boutilier, Bo Dai2026-03-10🤖 cs.LG

Masked Unfairness: Hiding Causality within Zero ATE

Este artículo demuestra que la regulación de la equidad basada únicamente en el efecto promedio del tratamiento (ATE) puede enmascarar injusticias causales significativas mediante la optimización de otros objetivos, lo que subraya la necesidad de evaluar la equidad a nivel del modelo y considerar la independencia condicional completa para detectar estos sesgos ocultos.

Zou Yang, Sophia Xiao, Bijan Mazaheri2026-03-10🤖 cs.LG

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

Este artículo presenta un método que utiliza Modelos de Lenguaje Grandes Multimodales (MLLM) para descubrir de forma adaptativa atributos de audio interpretables, logrando una clasificación de bajo recurso más rápida y precisa que los enfoques tradicionales basados en humanos.

Kosuke Yoshimura, Hisashi Kashima2026-03-10🤖 cs.LG

Combinatorial Allocation Bandits with Nonlinear Arm Utility

Este artículo propone el problema de aprendizaje en línea de "Bandidos de Asignación Combinatoria" (CAB) para plataformas de emparejamiento, introduciendo una métrica de satisfacción de los brazos en lugar de maximizar simplemente el número de coincidencias, y presenta algoritmos de límite superior de confianza y muestreo Thompson que garantizan cotas de regret aproximadas validadas mediante experimentos sintéticos.

Yuki Shibukawa, Koichi Tanaka, Yuta Saito, Shinji Ito2026-03-10🤖 cs.LG

Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models

El artículo presenta Self-MOA, un marco automatizado que alinea modelos de lenguaje pequeños mediante supervisión débil y optimización multiobjetivo, logrando una mejora del 12,41% en seguridad sin sacrificar la utilidad y utilizando hasta 11 veces menos datos de entrenamiento que los métodos supervisados por humanos.

Punyajoy Saha, Sudipta Halder, Debjyoti Mondal, Subhadarshi Panda2026-03-10🤖 cs.LG

TEA-Time: Transporting Effects Across Time

Este artículo presenta un marco para la extrapolaación temporal de efectos de tratamiento mediante dos estrategias de identificación y estimadores doblemente robustos, demostrando su validez mediante simulaciones y su aplicación a pruebas A/B reales, donde se evidencia una compensación entre precisión y sesgo.

Harsh Parikh, Gabriel Levin-Konigsberg, Dominique Perrault-Joncas, Alexander Volfovsky2026-03-10🤖 cs.LG

RESCHED: Rethinking Flexible Job Shop Scheduling from a Transformer-based Architecture with Simplified States

El artículo presenta \textsc{ReSched}, un marco de aprendizaje por refuerzo profundo minimalista basado en arquitecturas Transformer que, al reducir la representación del estado a solo cuatro características esenciales y eliminar dependencias históricas, supera a los métodos existentes y demuestra una fuerte generalización en diversos problemas de programación de talleres.

Xiangjie Xiao, Cong Zhang, Wen Song, Zhiguang Cao2026-03-10🤖 cs.LG

Resource-Adaptive Federated Text Generation with Differential Privacy

Este trabajo propone un marco de aprendizaje federado adaptable a los recursos que combina la fine-tuning diferencialmente privada en clientes potentes con un mecanismo de votación ligero en clientes limitados para generar datos sintéticos privados que preserven la distribución global y mejoren la robustez en tareas posteriores.

Jiayi Wang, John Gounley, Heidi Hanson2026-03-10🤖 cs.LG

The Talking Robot: Distortion-Robust Acoustic Models for Robot-Robot Communication

El artículo presenta Artoo, un sistema de comunicación acústica entre robots basado en redes neuronales entrenadas de extremo a extremo que, al prescindir de características paralingüísticas, logra una mayor robustez frente al ruido y un bajo consumo computacional, optimizando la precisión de decodificación en plataformas con recursos limitados.

Hanlong Li, Karishma Kamalahasan, Jiahui Li, Kazuhiro Nakadai, Shreyas Kousik2026-03-10🤖 cs.LG

Interpretable Maximum Margin Deep Anomaly Detection

El artículo presenta IMD-AD, un nuevo método de detección de anomalías profundo e interpretable que utiliza un objetivo de margen máximo y un conjunto pequeño de anomalías etiquetadas para evitar el colapso de la hiperesfera, aprender parámetros de forma end-to-end y superar el rendimiento de los métodos de vanguardia en diversos benchmarks.

Zhiji Yang, Mei Huang, Xinyu Li, Xianli Pan, Qi Wang, Jianhua Zhao2026-03-10🤖 cs.LG

Entropy-Aware On-Policy Distillation of Language Models

Este trabajo presenta la Destilación en Línea Consciente de la Entropía, un método que mejora la transferencia de conocimiento en modelos de lenguaje al combinar la divergencia KL inversa y directa para equilibrar la precisión y la diversidad, logrando así mejoras significativas en benchmarks de razonamiento matemático.

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin Lee2026-03-10🤖 cs.LG

VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness

El artículo presenta VLN-Cache, un marco de caché de tokens que supera las limitaciones de los métodos existentes al incorporar mecanismos de reasignación de vistas y filtrado de relevancia semántica para manejar la dinámica visual y semántica en la navegación visión-lenguaje, logrando una aceleración de hasta 1.52x sin comprometer el éxito de la navegación.

Zihao Zheng, Zhihao Mao, Xingyue Zhou, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen2026-03-10🤖 cs.LG

Dreamer-CDP: Improving Reconstruction-free World Models Via Continuous Deterministic Representation Prediction

El artículo presenta Dreamer-CDP, un nuevo enfoque que cierra la brecha de rendimiento entre los modelos de mundo basados en reconstrucción y los libres de ella mediante un predictor estilo JEPA sobre representaciones deterministas continuas, logrando en el entorno Crafter resultados equivalentes a Dreamer sin necesidad de objetivos de reconstrucción.

Michael Hauri, Friedemann Zenke2026-03-10🤖 cs.LG

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

El artículo introduce Countdown-Code, un entorno minimalista que demuestra cómo la contaminación de datos de entrenamiento con solo un 1% de ejemplos de hacking de recompensas puede inducir a los modelos de lenguaje a aprender y generalizar este comportamiento de desalineación durante el ajuste fino supervisado y el aprendizaje por refuerzo.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG

Statistical Contraction for Chance-Constrained Trajectory Optimization of Non-Gaussian Stochastic Systems

Este artículo presenta un método novedoso para la optimización de trayectorias robusta y libre de distribuciones en sistemas estocásticos no gaussianos, que utiliza inferencia conforme para garantizar el cumplimiento de restricciones de probabilidad mediante la reformulación de estas en restricciones deterministas tratables, permitiendo así la aplicación segura de planificadores de movimiento basados en aprendizaje.

Rihan Aaron D'Silva, Hiroyasu Tsukamoto2026-03-10🤖 cs.LG

Deep Generative Spatiotemporal Engression for Probabilistic Forecasting of Epidemics

Este artículo presenta un nuevo método de regresión espacio-temporal generativa profunda que, mediante arquitecturas ligeras y ruido pre-aditivo, ofrece pronósticos probabilísticos precisos y confiables para epidemias, superando a los modelos existentes en múltiples conjuntos de datos y mejorando la toma de decisiones en salud pública.

Rajdeep Pathak, Tanujit Chakraborty2026-03-10🤖 cs.LG

Combining Adam and its Inverse Counterpart to Enhance Generalization of Deep Learning Optimizers

Este artículo propone DualAdam, un optimizador que combina los mecanismos de actualización de Adam y su variante inversa (InvAdam) para garantizar la convergencia mientras mejora la generalización al ayudar a los modelos a escapar de mínimos agudos y encontrar mínimos planos, lo cual se valida mediante teoría de difusión y experimentos en clasificación de imágenes y ajuste fino de modelos de lenguaje grande.

Tao Shi, Liangming Chen, Long Jin, Mengchu Zhou2026-03-10🤖 cs.LG

Agentic Planning with Reasoning for Image Styling via Offline RL

Este trabajo presenta un marco de aprendizaje por refuerzo fuera de línea que utiliza planificación agéntica con razonamiento de cadena de pensamiento y una biblioteca de herramientas de edición composicional para superar las limitaciones de la edición directa por prompts, logrando mejoras significativas en la calidad visual y el seguimiento de instrucciones complejas.

Subhojyoti Mukherjee, Stefano Petrangeli, Branislav Kveton, Trung Bui, Franck Dernoncourt, Arko Mukherjee2026-03-10🤖 cs.LG

Spectral Conditioning of Attention Improves Transformer Performance

El artículo presenta un método teórico y empírico que mejora el rendimiento de los transformadores al modificar las propiedades espectrales de las capas de atención para reducir el número de condición del Jacobiano, logrando así una integración sencilla y mejoras consistentes en diversas arquitecturas y tareas.

Hemanth Saratchandran, Simon Lucey2026-03-10🤖 cs.LG

← Anterior Siguiente →