cs.LG artículos | Gist.Science

Combinatorial Allocation Bandits with Nonlinear Arm Utility

Este artículo propone el problema de aprendizaje en línea de "Bandidos de Asignación Combinatoria" (CAB) para plataformas de emparejamiento, introduciendo una métrica de satisfacción de los brazos en lugar de maximizar simplemente el número de coincidencias, y presenta algoritmos de límite superior de confianza y muestreo Thompson que garantizan cotas de regret aproximadas validadas mediante experimentos sintéticos.

Yuki Shibukawa, Koichi Tanaka, Yuta Saito, Shinji Ito2026-03-10🤖 cs.LG

Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models

El artículo presenta Self-MOA, un marco automatizado que alinea modelos de lenguaje pequeños mediante supervisión débil y optimización multiobjetivo, logrando una mejora del 12,41% en seguridad sin sacrificar la utilidad y utilizando hasta 11 veces menos datos de entrenamiento que los métodos supervisados por humanos.

Punyajoy Saha, Sudipta Halder, Debjyoti Mondal, Subhadarshi Panda2026-03-10🤖 cs.LG

TEA-Time: Transporting Effects Across Time

Este artículo presenta un marco para la extrapolaación temporal de efectos de tratamiento mediante dos estrategias de identificación y estimadores doblemente robustos, demostrando su validez mediante simulaciones y su aplicación a pruebas A/B reales, donde se evidencia una compensación entre precisión y sesgo.

Harsh Parikh, Gabriel Levin-Konigsberg, Dominique Perrault-Joncas, Alexander Volfovsky2026-03-10🤖 cs.LG

RESCHED: Rethinking Flexible Job Shop Scheduling from a Transformer-based Architecture with Simplified States

El artículo presenta \textsc{ReSched}, un marco de aprendizaje por refuerzo profundo minimalista basado en arquitecturas Transformer que, al reducir la representación del estado a solo cuatro características esenciales y eliminar dependencias históricas, supera a los métodos existentes y demuestra una fuerte generalización en diversos problemas de programación de talleres.

Xiangjie Xiao, Cong Zhang, Wen Song, Zhiguang Cao2026-03-10🤖 cs.LG

Resource-Adaptive Federated Text Generation with Differential Privacy

Este trabajo propone un marco de aprendizaje federado adaptable a los recursos que combina la fine-tuning diferencialmente privada en clientes potentes con un mecanismo de votación ligero en clientes limitados para generar datos sintéticos privados que preserven la distribución global y mejoren la robustez en tareas posteriores.

Jiayi Wang, John Gounley, Heidi Hanson2026-03-10🤖 cs.LG

The Talking Robot: Distortion-Robust Acoustic Models for Robot-Robot Communication

El artículo presenta Artoo, un sistema de comunicación acústica entre robots basado en redes neuronales entrenadas de extremo a extremo que, al prescindir de características paralingüísticas, logra una mayor robustez frente al ruido y un bajo consumo computacional, optimizando la precisión de decodificación en plataformas con recursos limitados.

Hanlong Li, Karishma Kamalahasan, Jiahui Li, Kazuhiro Nakadai, Shreyas Kousik2026-03-10🤖 cs.LG

Interpretable Maximum Margin Deep Anomaly Detection

El artículo presenta IMD-AD, un nuevo método de detección de anomalías profundo e interpretable que utiliza un objetivo de margen máximo y un conjunto pequeño de anomalías etiquetadas para evitar el colapso de la hiperesfera, aprender parámetros de forma end-to-end y superar el rendimiento de los métodos de vanguardia en diversos benchmarks.

Zhiji Yang, Mei Huang, Xinyu Li, Xianli Pan, Qi Wang, Jianhua Zhao2026-03-10🤖 cs.LG

Entropy-Aware On-Policy Distillation of Language Models

Este trabajo presenta la Destilación en Línea Consciente de la Entropía, un método que mejora la transferencia de conocimiento en modelos de lenguaje al combinar la divergencia KL inversa y directa para equilibrar la precisión y la diversidad, logrando así mejoras significativas en benchmarks de razonamiento matemático.

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin Lee2026-03-10🤖 cs.LG

VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness

El artículo presenta VLN-Cache, un marco de caché de tokens que supera las limitaciones de los métodos existentes al incorporar mecanismos de reasignación de vistas y filtrado de relevancia semántica para manejar la dinámica visual y semántica en la navegación visión-lenguaje, logrando una aceleración de hasta 1.52x sin comprometer el éxito de la navegación.

Zihao Zheng, Zhihao Mao, Xingyue Zhou, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen2026-03-10🤖 cs.LG

Dreamer-CDP: Improving Reconstruction-free World Models Via Continuous Deterministic Representation Prediction

El artículo presenta Dreamer-CDP, un nuevo enfoque que cierra la brecha de rendimiento entre los modelos de mundo basados en reconstrucción y los libres de ella mediante un predictor estilo JEPA sobre representaciones deterministas continuas, logrando en el entorno Crafter resultados equivalentes a Dreamer sin necesidad de objetivos de reconstrucción.

Michael Hauri, Friedemann Zenke2026-03-10🤖 cs.LG

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

El artículo introduce Countdown-Code, un entorno minimalista que demuestra cómo la contaminación de datos de entrenamiento con solo un 1% de ejemplos de hacking de recompensas puede inducir a los modelos de lenguaje a aprender y generalizar este comportamiento de desalineación durante el ajuste fino supervisado y el aprendizaje por refuerzo.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG

Statistical Contraction for Chance-Constrained Trajectory Optimization of Non-Gaussian Stochastic Systems

Este artículo presenta un método novedoso para la optimización de trayectorias robusta y libre de distribuciones en sistemas estocásticos no gaussianos, que utiliza inferencia conforme para garantizar el cumplimiento de restricciones de probabilidad mediante la reformulación de estas en restricciones deterministas tratables, permitiendo así la aplicación segura de planificadores de movimiento basados en aprendizaje.

Rihan Aaron D'Silva, Hiroyasu Tsukamoto2026-03-10🤖 cs.LG

Deep Generative Spatiotemporal Engression for Probabilistic Forecasting of Epidemics

Este artículo presenta un nuevo método de regresión espacio-temporal generativa profunda que, mediante arquitecturas ligeras y ruido pre-aditivo, ofrece pronósticos probabilísticos precisos y confiables para epidemias, superando a los modelos existentes en múltiples conjuntos de datos y mejorando la toma de decisiones en salud pública.

Rajdeep Pathak, Tanujit Chakraborty2026-03-10🤖 cs.LG

Combining Adam and its Inverse Counterpart to Enhance Generalization of Deep Learning Optimizers

Este artículo propone DualAdam, un optimizador que combina los mecanismos de actualización de Adam y su variante inversa (InvAdam) para garantizar la convergencia mientras mejora la generalización al ayudar a los modelos a escapar de mínimos agudos y encontrar mínimos planos, lo cual se valida mediante teoría de difusión y experimentos en clasificación de imágenes y ajuste fino de modelos de lenguaje grande.

Tao Shi, Liangming Chen, Long Jin, Mengchu Zhou2026-03-10🤖 cs.LG

Agentic Planning with Reasoning for Image Styling via Offline RL

Este trabajo presenta un marco de aprendizaje por refuerzo fuera de línea que utiliza planificación agéntica con razonamiento de cadena de pensamiento y una biblioteca de herramientas de edición composicional para superar las limitaciones de la edición directa por prompts, logrando mejoras significativas en la calidad visual y el seguimiento de instrucciones complejas.

Subhojyoti Mukherjee, Stefano Petrangeli, Branislav Kveton, Trung Bui, Franck Dernoncourt, Arko Mukherjee2026-03-10🤖 cs.LG

Spectral Conditioning of Attention Improves Transformer Performance

El artículo presenta un método teórico y empírico que mejora el rendimiento de los transformadores al modificar las propiedades espectrales de las capas de atención para reducir el número de condición del Jacobiano, logrando así una integración sencilla y mejoras consistentes en diversas arquitecturas y tareas.

Hemanth Saratchandran, Simon Lucey2026-03-10🤖 cs.LG

Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts

Este artículo presenta MSKernelBench, un nuevo estándar de evaluación para múltiples escenarios, y CUDAMaster, un sistema multiagente que optimiza automáticamente kernels CUDA en diversos dominios (desde operaciones algebraicas hasta computación científica), logrando aceleraciones significativas que superan a métodos existentes y rivalizan con bibliotecas de alto rendimiento como cuBLAS.

Yuxuan Han, Meng-Hao Guo, Zhengning Liu, Wenguang Chen, Shi-Min Hu2026-03-10🤖 cs.LG

Shaping Parameter Contribution Patterns for Out-of-Distribution Detection

Este artículo presenta SPCP, un método que mejora la detección de datos fuera de distribución al fomentar patrones de contribución de parámetros más densos y orientados a los límites durante el entrenamiento, evitando así las predicciones excesivamente confiables causadas por la dependencia de unos pocos parámetros dominantes.

Haonan Xu, Yang Yang2026-03-10🤖 cs.LG

A Dual-Graph Spatiotemporal GNN Surrogate for Nonlinear Response Prediction of Reinforced Concrete Beams under Four-Point Bending

Este trabajo presenta un sustituto basado en una red neuronal de grafos espaciotemporal dual que aproxima de manera eficiente y precisa las respuestas no lineales de vigas de hormigón armado bajo flexión de cuatro puntos, superando las limitaciones de las simulaciones de elementos finitos tradicionales al predecir simultáneamente desplazamientos nodales, tensiones y deformaciones plásticas mediante un enfoque multi-tarea acoplado.

Zhaoyang Ren, Qilin Li2026-03-10🤖 cs.LG

wDPO: Winsorized Direct Preference Optimization for Robust LLM Alignment

El artículo presenta wDPO, un enfoque de alineación robusto para modelos de lenguaje grande que utiliza una estrategia de winsorización jerárquica para identificar y tratar de manera diferenciada distintos tipos de ruido en los datos de preferencia, mejorando así la calidad y robustez de la alineación sin depender de modelos de recompensa externos.

Jilong Liu, Yonghui Yang, Pengyang Shao, Haokai Ma, Wei Qin, Richang Hong2026-03-10🤖 cs.LG

← Anterior Siguiente →