cs.LG artículos | Gist.Science

Dual-Robust Cross-Domain Offline Reinforcement Learning Against Dynamics Shifts

Este artículo presenta DROCO, un algoritmo de aprendizaje por refuerzo offline cruzado que garantiza la robustez tanto en entrenamiento como en prueba frente a cambios en la dinámica mediante un nuevo operador de Bellman robusto, penalización de valor dinámica y pérdida de Huber.

Zhongjian Qiao, Rui Yang, Jiafei Lyu, Xiu Li, Zhongxiang Dai, Zhuoran Yang, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG

Evolving Diffusion and Flow Matching Policies for Online Reinforcement Learning

El artículo presenta GoRL, un marco de aprendizaje por refuerzo en línea que resuelve la tensión entre la estabilidad de la optimización y la expresividad de las políticas mediante la decouplaje de la optimización en un espacio latente tratable y la síntesis de acciones en un espacio generativo, logrando un rendimiento superior en tareas de control continuo.

Chubin Zhang, Zhenglin Wan, Feng Chen, Fuchao Yang, Lang Feng, Yaxin Zhou, Xingrui Yu, Yang You, Ivor Tsang, Bo An2026-03-10🤖 cs.LG

Beyond Additivity: Sparse Isotonic Shapley Regression toward Nonlinear Explainability

Este artículo presenta la Regresión Isotónica Shapley Escasa (SISR), un marco unificado de explicación no lineal que aprende simultáneamente una transformación monótona para restaurar la aditividad y aplica una restricción de escasez L0 para identificar características relevantes de manera eficiente, superando así las limitaciones de distorsión y costo computacional de los valores Shapley estándar en escenarios de alta dimensionalidad y dependencias complejas.

Jialai She2026-03-10🤖 cs.LG

Two-Step Data Augmentation for Masked Face Detection and Recognition: Turning Fake Masks to Real

Este trabajo propone un marco de aumento de datos generativo de dos pasos que combina deformación de máscaras basada en reglas y traducción de imágenes mediante GANs para generar muestras de rostros con mascarilla, logrando mejoras consistentes con una fracción mínima de los datos de entrenamiento utilizados por métodos anteriores, a pesar de haber sido desarrollado bajo severas restricciones de recursos y tiempo.

Yan Yang, George Bebis, Mircea Nicolescu2026-03-10🤖 cs.LG

SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

El artículo presenta SALVE, un marco unificado que combina autoencoders dispersos y mapeo de saliencia para descubrir, validar y controlar de manera interpretable y permanente el comportamiento de redes neuronales mediante la edición de vectores latentes.

Vegard Flovik2026-03-10🤖 cs.LG

Meta-RL Induces Exploration in Language Agents

El artículo presenta LaMer, un marco de Meta-RL que permite a los agentes de lenguaje aprender y explorar activamente en tiempo de prueba mediante un entrenamiento cruzado de episodios y la adaptación de políticas en contexto, logrando mejoras significativas en el rendimiento y la generalización frente a métodos de RL tradicionales.

Yulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbic2026-03-10🤖 cs.LG

ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

El artículo presenta "Re-Depth Anything", un marco de auto-supervisión en tiempo de prueba que mejora la estimación de profundidad monoculosa al fusionar modelos fundacionales con priores de modelos de difusión 2D a gran escala mediante un refinamiento basado en re-iluminación y muestreo de distorsión de puntuación (SDS), logrando resultados de vanguardia sin necesidad de etiquetas.

Ananta R. Bhattarai, Helge Rhodin2026-03-10🤖 cs.LG

Concurrent training methods for Kolmogorov-Arnold networks: Disjoint datasets and FPGA implementation

Este artículo presenta tres estrategias complementarias para acelerar el entrenamiento de redes Kolmogorov-Arnold (KAN) basadas en el método Newton-Kaczmarz: un procedimiento de preentrenamiento, el entrenamiento en subconjuntos de datos disjuntos con fusión posterior de modelos y una técnica de paralelización implementada y validada en hardware FPGA.

Andrew Polar, Michael Poluektov2026-03-10🤖 cs.LG

Latent Sculpting for Zero-Shot Generalization: A Manifold Learning Approach to Out-of-Distribution Anomaly Detection

Este artículo presenta "Latent Sculpting", un enfoque de aprendizaje de variedades que utiliza un codificador Transformer con una pérdida de escultura latente binaria y un flujo autoregresivo enmascarado para lograr una detección de anomalías generalizable a distribuciones desconocidas en datos tabulares, logrando un alto rendimiento en la identificación de ataques cibernéticos cero-día sin necesidad de ejemplos de entrenamiento específicos.

Rajeeb Thapa Chhetri, Saurab Thapa, Avinash Kumar, Zhixiong Chen2026-03-10🤖 cs.LG

Certifying the Right to Be Forgotten: Primal-Dual Optimization for Sample and Label Unlearning in Vertical Federated Learning

El artículo presenta FedORA, un algoritmo de optimización primal-dual que certifica el derecho al olvido en el aprendizaje federado vertical mediante la eliminación eficiente de muestras y etiquetas sin necesidad de reentrenar el modelo desde cero, garantizando al mismo tiempo la utilidad del modelo y reduciendo la sobrecarga computacional.

Yu Jiang, Xindi Tong, Ziyao Liu, Xiaoxi Zhang, Kwok-Yan Lam, Chee Wei Tan2026-03-10🤖 cs.LG

Network Traffic Analysis with Process Mining: The UPSIDE Case Study

Este artículo presenta un método basado en minería de procesos que analiza el tráfico de redes de videojuegos para caracterizar estados, modelarlos mediante redes de Petri e identificar el juego específico, demostrando su eficacia en el estudio de caso UPSIDE con *Clash Royale* y *Rocket League*.

Francesco Vitale, Paolo Palmiero, Massimiliano Rak, Nicola Mazzocca2026-03-10🤖 cs.LG

Topological Spatial Graph Coarsening

Este trabajo propone un método sin parámetros para el coarsening de grafos espaciales que reduce su tamaño preservando sus características topológicas mediante el colapso de aristas cortas y una nueva filtración llamada "triangle-aware graph filtration".

Anna Calissano, Etienne Lasalle2026-03-10🤖 cs.LG

Sparse Offline Reinforcement Learning with Corruption Robustness

Este trabajo propone métodos actor-crítico con oráculos de estimación robusta y dispersa que logran las primeras garantías no triviales para el aprendizaje por refuerzo offline en MDPs de alta dimensión y dispersos bajo concentrabilidad de política única y corrupción de datos fuerte, superando las limitaciones de los enfoques tradicionales como la iteración de valor por mínimos cuadrados.

Nam Phuong Tran, Andi Nika, Goran Radanovic, Long Tran-Thanh, Debmalya Mandal2026-03-10🤖 cs.LG

Group Cross-Correlations with Faintly Constrained Filters

Este artículo propone restricciones más débiles para los filtros en las redes neuronales de convolución grupal que reducen el número de nodos necesarios, resuelven incompatibilidades con acciones de grupo que tienen estabilizadores no compactos y generalizan resultados anteriores a acciones no transitivas y grupos no unimodulares.

Benedikt Fluhr2026-03-10🤖 cs.LG

Reliable Grid Forecasting: State Space Models for Safety-Critical Energy Systems

Este artículo presenta un marco de evaluación centrado en la seguridad para la predicción de carga de la red eléctrica que, al demostrar que las métricas de precisión estándar son insuficientes para gestionar riesgos asimétricos, identifica la susceptibilidad de los modelos probabilísticos a la "falsa seguridad" por inflación de pronósticos y propone estrategias de integración meteorológica y objetivos restringidos para equilibrar la fiabilidad operativa con la eficiencia energética.

Sunki Hong, Jisoo Lee2026-03-10⚡ eess

From Mice to Trains: Amortized Bayesian Inference on Graph Data

Este trabajo adapta la Inferencia Bayesiana Amortizada (ABI) a datos de grafos mediante un pipeline de dos módulos que combina codificadores invariantes a permutaciones con estimadores neuronales de posterior, demostrando su eficacia en la recuperación y calibración de parámetros a nivel de nodos, aristas y grafos en dominios sintéticos, biológicos y logísticos.

Svenja Jedhoff, Elizaveta Semenova, Aura Raulo, Anne Meyer, Paul-Christian Bürkner2026-03-10🤖 cs.LG

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

DevBench es un nuevo benchmark impulsado por telemetría real que evalúa modelos de lenguaje grandes en tareas de generación de código ecológicamente válidas, ofreciendo diagnósticos detallados sobre su precisión sintáctica, razonamiento semántico y utilidad práctica para guiar su selección y mejora.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie Nallipogu2026-03-10🤖 cs.LG

A Component-Based Survey of Interactions between Large Language Models and Multi-Armed Bandits

Esta encuesta presenta una revisión sistemática a nivel de componentes de la interacción bidireccional entre los modelos de lenguaje grandes y los algoritmos de banditos multi-brazo, destacando cómo se potencian mutuamente para resolver desafíos en el aprendizaje y la toma de decisiones adaptativa.

Siguang Chen, Chunli Lv, Miao Xie2026-03-10🤖 cs.LG

ELSA: Efficient LLM-Centric Split Aggregation for Privacy-Aware Hierarchical Federated Learning over the Network Edge

El artículo presenta ELSA, un marco innovador que integra el aprendizaje dividido y el aprendizaje federado jerárquico para optimizar el ajuste fino de modelos de lenguaje grandes en el borde de la red mediante agrupación de clientes basada en comportamiento, división dinámica del modelo y un esquema de comunicación ligero que garantiza la privacidad y la eficiencia en entornos con recursos limitados.

Xiaohong Yang, Tong Xie, Minghui Liwang, Chikai Shang, Yang Lu, Zhenzhen Jiao, Liqun Fu, Seyyedali Hosseinalipour2026-03-10🤖 cs.LG

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Este trabajo presenta una arquitectura de inferencia de CNN continua y consciente de la tasa de datos para FPGAs que maximiza la utilización del hardware mediante el entrelazado de señales y el uso compartido de unidades, permitiendo implementar redes complejas como MobileNet en un solo dispositivo con alto rendimiento.

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario Garrido2026-03-10🤖 cs.LG

← Anterior Siguiente →