cs.LG artículos | Gist.Science

FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

El artículo propone FedEMA-Distill, un método de aprendizaje federado que combina un promedio móvil exponencial del modelo global con la destilación de conocimiento basada en logits para lograr un entrenamiento más robusto, eficiente en comunicación y resistente a ataques adversarios sin requerir cambios en el software de los clientes.

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir2026-03-06💻 cs

When Scaling Fails: Network and Fabric Effects on Distributed GPU Training Performance

Este artículo presenta un estudio empírico que demuestra cómo factores de red y de la infraestructura, como la topología, la congestión y la localidad de las GPU, son las causas principales del fracaso en la escalabilidad del entrenamiento distribuido de GPU a gran escala, a menudo pasando desapercibidos para las herramientas de perfilado estándar.

Dinesh Gopalan, Ratul Ali2026-03-06💻 cs

Data-Driven Optimization of Multi-Generational Cellular Networks: A Performance Classification Framework for Strategic Infrastructure Management

Este artículo presenta un marco de clasificación de rendimiento basado en datos para optimizar la gestión estratégica de redes celulares multigeneracionales, identificando infraestructura subutilizada y zonas de demanda no cubierta por 4G en países como Pakistán para guiar las actualizaciones de LTE y mejorar la eficiencia operativa.

Maryam Sabahat, M. Umar Khan2026-03-06💻 cs

Delta-Crosscoder: Robust Crosscoder Model Diffing in Narrow Fine-Tuning Regimes

El artículo presenta Delta-Crosscoder, un modelo robusto que supera a las técnicas existentes para identificar y mitigar cambios causales en las representaciones internas de modelos de lenguaje durante ajustes finos estrechos, demostrando su eficacia en diversos organismos y tareas.

Aly Kassem, Thomas Jiralerspong, Negar Rostamzadeh + 1 more2026-03-06💻 cs

Thin Keys, Full Values: Reducing KV Cache via Low-Dimensional Attention Selection

Este paper propone y valida que la dimensión de las claves en la atención de los transformadores puede reducirse drásticamente mediante selección de baja dimensión y compresión SVD seguida de ajuste fino, logrando un ahorro del 75% en la memoria de caché KV con una pérdida de calidad mínima y permitiendo servir a más usuarios concurrentes.

Hengshuai Yao, Guan Wang2026-03-06💻 cs

Agent Memory Below the Prompt: Persistent Q4 KV Cache for Multi-Agent LLM Inference on Edge Devices

Este trabajo presenta un sistema para inferencia multi-agente en dispositivos de borde que persiste la memoria de atención (KV cache) de cada agente en formato cuantizado a 4 bits en disco, permitiendo su restauración directa y eliminando la necesidad de recomputación, lo que reduce el tiempo hasta el primer token hasta en 136 veces y multiplica por cuatro la cantidad de agentes que caben en la memoria disponible.

Yakov Pyotr Shkolnikov2026-03-06💻 cs

Flowers: A Warp Drive for Neural PDE Solvers

El artículo presenta "Flowers", una arquitectura neuronal eficiente y escalable que resuelve operadores de EDPs utilizando exclusivamente deformaciones espaciales (warps) para capturar interacciones globales sin mecanismos de atención o convolución tradicionales, logrando un rendimiento superior en problemas de flujo y ondas con una fracción de los parámetros y recursos computacionales de los modelos existentes.

Till Muser, Alexandra Spitzer, Matti Lassas + 2 more2026-03-06💻 cs

Uncertainty-Calibrated Spatiotemporal Field Diffusion with Sparse Supervision

El artículo presenta SOLID, un marco de difusión condicionado por máscaras que aprende dinámicas espacio-temporales exclusivamente a partir de observaciones dispersas mediante un objetivo de doble enmascaramiento, logrando reconstrucciones de campos completos con incertidumbre calibrada y sin necesidad de datos densos o pre-imputación.

Kevin Valencia, Xihaier Luo, Shinjae Yoo + 1 more2026-03-06💻 cs

Auction-Based RIS Allocation With DRL: Controlling the Cost-Performance Trade-Off

Este artículo propone un mecanismo de asignación de superficies inteligentes reconfigurables (RIS) basado en subastas y agentes de aprendizaje por refuerzo profundo que optimiza la compensación entre el rendimiento de la red y el costo mediante una estrategia de puja adaptable y controlable.

Martin Mark Zan, Stefan Schwarz2026-03-06💻 cs

ZorBA: Zeroth-order Federated Fine-tuning of LLMs with Heterogeneous Block Activation

El artículo presenta ZorBA, un marco de ajuste fino federado para modelos de lenguaje grandes que utiliza optimización de orden cero y activación heterogénea de bloques para reducir significativamente el uso de memoria VRAM y la sobrecarga de comunicación sin sacrificar la tasa de convergencia.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-06💻 cs

ASFL: An Adaptive Model Splitting and Resource Allocation Framework for Split Federated Learning

Este artículo propone ASFL, un marco de aprendizaje federado dividido adaptativo que optimiza la asignación de recursos y la división del modelo en redes inalámbricas para mejorar la velocidad de convergencia y reducir significativamente la latencia y el consumo de energía.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-06💻 cs

CogGen: Cognitive-Load-Informed Fully Unsupervised Deep Generative Modeling for Compressively Sampled MRI Reconstruction

El artículo presenta CogGen, un modelo generativo profundo totalmente no supervisado que mejora la reconstrucción de MRI muestreado comprimido mediante un aprendizaje curricular auto-dirigido que gestiona la carga cognitiva al priorizar progresivamente los datos de baja frecuencia y alta relación señal-ruido sobre el ruido y las frecuencias altas.

Qingyong Zhu, Yumin Tan, Xiang Gu + 1 more2026-03-06💻 cs

Explainable Regime Aware Investing

El artículo presenta un marco de inversión explicativo y adaptable a regímenes basado en un modelo oculto de Markov de Wasserstein que, al inferir dinámicamente la complejidad del mercado y preservar la identidad de los regímenes, logra un rendimiento ajustado al riesgo superior y una menor volatilidad en comparación con benchmarks tradicionales y modelos no paramétricos.

Amine Boukardagha2026-03-06💻 cs

AMV-L: Lifecycle-Managed Agent Memory for Tail-Latency Control in Long-Running LLM Systems

El artículo presenta AMV-L, un marco de gestión de memoria para agentes LLM que utiliza puntuaciones de utilidad y niveles de ciclo de vida para controlar la latencia de cola, logrando mejoras significativas en el rendimiento y la estabilidad en comparación con las políticas tradicionales basadas en tiempo o LRU.

Emmanuel Bamidele2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

SkillNet es una infraestructura abierta que crea, evalúa y conecta habilidades de IA a gran escala mediante una ontología unificada y un repositorio de más de 200.000 habilidades, logrando mejorar significativamente el rendimiento de los agentes al permitirles acumular y transferir conocimientos en lugar de reinventar soluciones.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

An Explainable Ensemble Framework for Alzheimer's Disease Prediction Using Structured Clinical and Cognitive Data

Esta investigación presenta un marco de aprendizaje ensemblistas explicable que, mediante el uso de técnicas avanzadas de preprocesamiento y algoritmos como XGBoost y Random Forest sobre datos clínicos estructurados, logra una detección precisa y transparente de la enfermedad de Alzheimer para apoyar la toma de decisiones clínicas.

Nishan Mitra2026-03-06💻 cs

MPBMC: Multi-Property Bounded Model Checking with GNN-guided Clustering

Este artículo presenta MPBMC, un enfoque híbrido que utiliza redes neuronales gráficas y estadísticas de diseño para agrupar propiedades de manera funcional y acelerar la verificación formal mediante comprobación de modelos acotada.

Soumik Guha Roy, Sumana Ghosh, Ansuman Banerjee + 2 more2026-03-06💻 cs

On Emergences of Non-Classical Statistical Characteristics in Classical Neural Networks

Este artículo presenta la NCnet, una arquitectura clásica que exhibe comportamientos estadísticos no clásicos análogos a las desigualdades de Bell, demostrando que las correlaciones no locales surgen de la competencia de gradientes entre tareas compartidas y que la métrica $S$ puede servir como indicador de la dinámica de entrenamiento y el rendimiento de generalización.

Hanyu Zhao, Yang Wu, Yuexian Hou2026-03-06⚛️ quant-ph

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Este trabajo identifica y valida una nueva vulnerabilidad en los modelos de lenguaje grandes multimodales, demostrando que optimizar una función de pérdida para inducir inestabilidad numérica genera imágenes que degradan significativamente el rendimiento del modelo con perturbaciones mínimas, revelando un vector de fallo distinto a las perturbaciones adversarias tradicionales.

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

Learning Unified Distance Metric for Heterogeneous Attribute Data Clustering

Este artículo propone un nuevo paradigma de aprendizaje llamado HARR (Reconstrucción y Representación de Atributos Heterogéneos) que transforma atributos numéricos y categóricos en un espacio homogéneo para aprender una métrica de distancia unificada, mejorando así la precisión y eficiencia del clustering en datos mixtos sin requerir parámetros ni garantías de convergencia.

Yiqun Zhang, Mingjie Zhao, Yizhou Chen + 2 more2026-03-06💻 cs

← Anterior Siguiente →