cs.LG artículos | Gist.Science

Group Cross-Correlations with Faintly Constrained Filters

Este artículo propone restricciones más débiles para los filtros en las redes neuronales de convolución grupal que reducen el número de nodos necesarios, resuelven incompatibilidades con acciones de grupo que tienen estabilizadores no compactos y generalizan resultados anteriores a acciones no transitivas y grupos no unimodulares.

Benedikt Fluhr2026-03-10🤖 cs.LG

Reliable Grid Forecasting: State Space Models for Safety-Critical Energy Systems

Este artículo presenta un marco de evaluación centrado en la seguridad para la predicción de carga de la red eléctrica que, al demostrar que las métricas de precisión estándar son insuficientes para gestionar riesgos asimétricos, identifica la susceptibilidad de los modelos probabilísticos a la "falsa seguridad" por inflación de pronósticos y propone estrategias de integración meteorológica y objetivos restringidos para equilibrar la fiabilidad operativa con la eficiencia energética.

Sunki Hong, Jisoo Lee2026-03-10⚡ eess

From Mice to Trains: Amortized Bayesian Inference on Graph Data

Este trabajo adapta la Inferencia Bayesiana Amortizada (ABI) a datos de grafos mediante un pipeline de dos módulos que combina codificadores invariantes a permutaciones con estimadores neuronales de posterior, demostrando su eficacia en la recuperación y calibración de parámetros a nivel de nodos, aristas y grafos en dominios sintéticos, biológicos y logísticos.

Svenja Jedhoff, Elizaveta Semenova, Aura Raulo, Anne Meyer, Paul-Christian Bürkner2026-03-10🤖 cs.LG

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

DevBench es un nuevo benchmark impulsado por telemetría real que evalúa modelos de lenguaje grandes en tareas de generación de código ecológicamente válidas, ofreciendo diagnósticos detallados sobre su precisión sintáctica, razonamiento semántico y utilidad práctica para guiar su selección y mejora.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie Nallipogu2026-03-10🤖 cs.LG

A Component-Based Survey of Interactions between Large Language Models and Multi-Armed Bandits

Esta encuesta presenta una revisión sistemática a nivel de componentes de la interacción bidireccional entre los modelos de lenguaje grandes y los algoritmos de banditos multi-brazo, destacando cómo se potencian mutuamente para resolver desafíos en el aprendizaje y la toma de decisiones adaptativa.

Siguang Chen, Chunli Lv, Miao Xie2026-03-10🤖 cs.LG

ELSA: Efficient LLM-Centric Split Aggregation for Privacy-Aware Hierarchical Federated Learning over the Network Edge

El artículo presenta ELSA, un marco innovador que integra el aprendizaje dividido y el aprendizaje federado jerárquico para optimizar el ajuste fino de modelos de lenguaje grandes en el borde de la red mediante agrupación de clientes basada en comportamiento, división dinámica del modelo y un esquema de comunicación ligero que garantiza la privacidad y la eficiencia en entornos con recursos limitados.

Xiaohong Yang, Tong Xie, Minghui Liwang, Chikai Shang, Yang Lu, Zhenzhen Jiao, Liqun Fu, Seyyedali Hosseinalipour2026-03-10🤖 cs.LG

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Este trabajo presenta una arquitectura de inferencia de CNN continua y consciente de la tasa de datos para FPGAs que maximiza la utilización del hardware mediante el entrelazado de señales y el uso compartido de unidades, permitiendo implementar redes complejas como MobileNet en un solo dispositivo con alto rendimiento.

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario Garrido2026-03-10🤖 cs.LG

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

El artículo presenta MeanCache, un marco de caché sin entrenamiento que acelera la inferencia de Flow Matching al utilizar velocidades promedio derivadas de productos Jacobiano-vector en lugar de velocidades instantáneas, logrando mejoras significativas en la velocidad y la calidad de generación en modelos como FLUX.1, Qwen-Image y HunyuanVideo.

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG

PASS: Certified Subset Repair for Classical and Quantum Pairwise Constrained Clustering

PASS es un marco escalable para el agrupamiento k-means con restricciones de pares que optimiza un subconjunto de trabajo y repara las asignaciones restantes mediante re-centrado, ofreciendo certificados de reparación verificables y habilitando formulaciones cuánticas y clásicas reducidas para resolver problemas que otros métodos no pueden finalizar a tiempo.

Pedro Chumpitaz-Flores, My Duong, Ying Mao, Kaixun Hua2026-03-10🤖 cs.LG

Model-Free Neural State Estimation in Nonlinear Dynamical Systems: Comparing Neural and Classical Filters

Este trabajo presenta una comparación empírica sistemática que demuestra que los modelos neuronales sin modelo, especialmente los de espacio de estados, alcanzan un rendimiento de estimación de estados comparable a los filtros de Kalman no lineales en sistemas dinámicos no lineales, superando a las bases clásicas más débiles y ofreciendo un mayor rendimiento de inferencia sin necesidad de acceso a las ecuaciones del sistema.

Zhuochen Liu, Hans Walker, Rahul Jain2026-03-10🤖 cs.LG

TimeSliver : Symbolic-Linear Decomposition for Explainable Time Series Classification

El artículo presenta TimeSliver, un marco de aprendizaje profundo que combina datos de series temporales crudos con su abstracción simbólica para generar atribuciones temporales explicables y precisas, superando a los métodos existentes en rendimiento explicativo y manteniendo una competitividad comparable en tareas de clasificación.

Akash Pandey, Payal Mohapatra, Wei Chen, Qi Zhu, Sinan Keten2026-03-10🤖 cs.LG

Transferable Graph Condensation from the Causal Perspective

El artículo presenta TGCC, un nuevo método de condensación de grafos basado en la invarianza causal que extrae características invariantes al dominio e integra aprendizaje contrastivo para generar conjuntos de datos comprimidos que superan a los métodos existentes en escenarios de transferencia cruzada de tareas y dominios.

Huaming Du, Yijie Huang, Su Yao, Yiying Wang, Yueyang Zhou, Jingwen Yang, Jinshi Zhang, Han Ji, Yu Zhao, Guisong Liu, Hegui Zhang, Carl Yang, Gang Kou2026-03-10🤖 cs.LG

FlowSymm: Physics Aware, Symmetry Preserving Graph Attention for Network Flow Completion

FlowSymm es una arquitectura novedosa que combina acciones de grupo sobre flujos sin divergencia, un codificador de atención gráfica y un refinamiento de Tikhonov para recuperar flujos faltantes en redes respetando estrictamente las leyes de conservación locales, superando a los métodos actuales en benchmarks de tráfico, energía y bicicletas.

Ege Demirci, Francesco Bullo, Ananthram Swami, Ambuj Singh2026-03-10🤖 cs.LG

Mem-T: Densifying Rewards for Long-Horizon Memory Agents

El artículo presenta Mem-T, un agente de memoria autónomo que utiliza el marco de aprendizaje por refuerzo MoT-GRPO para transformar las recompensas dispersas en supervisión densa, logrando así una optimización integral de la gestión de memoria que supera a los enfoques existentes en rendimiento y eficiencia.

Yanwei Yue, Boci Peng, Xuanbo Fan, Jiaxin Guo, Qiankun Li, Yan Zhang2026-03-10🤖 cs.LG

Bitcoin Price Prediction using Machine Learning and Combinatorial Fusion Analysis

Este trabajo propone un nuevo paradigma de fusión de modelos llamado Análisis de Fusión Combinatoria (CFA) para predecir el precio de Bitcoin, logrando un rendimiento superior al de los modelos individuales y otros métodos existentes con un error porcentual absoluto medio (MAPE) de 0,19%.

Yuanhong Wu, Wei Ye, Jingyan Xu, D. Frank Hsu2026-03-10🤖 cs.LG

In-Run Data Shapley for Adam Optimizer

Este trabajo propone el "Adam-Aware In-Run Data Shapley", un método que supera las limitaciones de los enfoques basados en SGD para estimar la atribución de datos en optimizadores adaptativos como Adam, logrando una fidelidad casi perfecta y una alta eficiencia computacional mediante una aproximación linealizada de gradientes.

Meng Ding, Zeqing Zhang, Di Wang, Lijie Hu2026-03-10🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Este estudio demuestra que, en la detección de valores humanos a nivel de oración, la estructura de valores de orden superior de Schwartz funciona mejor como un sesgo inductivo que como una regla de enrutamiento rígida, siendo las mejoras más significativas obtenidas mediante técnicas de calibración y ensamble en lugar de arquitecturas jerárquicas complejas.

Víctor Yeste, Paolo Rosso2026-03-10🤖 cs.LG

LatentMem: Customizing Latent Memory for Multi-Agent Systems

El artículo presenta LatentMem, un marco de memoria multiagente aprendible que supera las limitaciones de homogeneización y sobrecarga de información mediante la síntesis de memorias latentes específicas para cada agente y la optimización de políticas, logrando mejoras significativas en el rendimiento sin modificar los sistemas existentes.

Muxin Fu, Xiangyuan Xue, Yafu Li, Zefeng He, Siyuan Huang, Xiaoye Qu, Yu Cheng, Yang Yang2026-03-10🤖 cs.LG

Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

El artículo presenta T2T, un marco de recompensa dinámica inspirado en el aprendizaje humano que mejora el razonamiento de los modelos de lenguaje mediante un mecanismo de doble fase que fomenta la exploración en intentos incorrectos y penaliza la redundancia una vez alcanzada la corrección, logrando un rendimiento superior en benchmarks matemáticos.

Wenze Lin, Zhen Yang, Xitai Jiang, Pony Ma, Gao Huang2026-03-10🤖 cs.LG

Inference-Time Backdoors via Hidden Instructions in LLM Chat Templates

Este artículo demuestra que es posible implantar puertas traseras en modelos de lenguaje de peso abierto mediante la manipulación de sus plantillas de chat, lo que permite activar comportamientos maliciosos durante la inferencia sin modificar los pesos del modelo ni controlar la infraestructura de despliegue.

Ariel Fogel, Omer Hofman, Eilon Cohen, Roman Vainshtein2026-03-10🤖 cs.LG

← Anterior Siguiente →