cs.LG artigos | Gist.Science

When Scaling Fails: Network and Fabric Effects on Distributed GPU Training Performance

Este artigo investiga empiricamente como fatores de rede e de infraestrutura, frequentemente negligenciados, causam falhas de escalabilidade e desempenho instável em treinamentos distribuídos de GPUs em grande escala, identificando modos de falha recorrentes e propondo princípios práticos para diagnóstico e otimização.

Dinesh Gopalan, Ratul Ali2026-03-06💻 cs

Data-Driven Optimization of Multi-Generational Cellular Networks: A Performance Classification Framework for Strategic Infrastructure Management

Este artigo apresenta um framework de classificação de desempenho baseado em dados para otimizar a gestão estratégica de redes celulares multigeracionais, utilizando uma análise de 1.818 torres de celular para identificar padrões de infraestrutura, oportunidades de economia de custos e zonas de demanda não atendidas por tecnologias 4G, visando melhorar a eficiência operacional e reduzir o fosso digital.

Maryam Sabahat, M. Umar Khan2026-03-06💻 cs

Delta-Crosscoder: Robust Crosscoder Model Diffing in Narrow Fine-Tuning Regimes

O artigo apresenta o Delta-Crosscoder, um método robusto que combina esparsidade BatchTopK e uma função de perda baseada em deltas para identificar com precisão e mitigar mudanças comportamentais localizadas em modelos de linguagem após ajustes finos, superando abordagens baseadas em SAEs em diversos cenários de teste.

Aly Kassem, Thomas Jiralerspong, Negar Rostamzadeh + 1 more2026-03-06💻 cs

Thin Keys, Full Values: Reducing KV Cache via Low-Dimensional Attention Selection

O artigo propõe e valida a hipótese de que a seleção de atenção (queries e keys) pode ser realizada em dimensões muito menores do que a transferência de valores, permitindo reduzir o cache KV em 75% com perda mínima de qualidade através de compressão SVD e ajuste fino leve, o que aumenta significativamente a capacidade de usuários simultâneos em modelos de grande escala.

Hengshuai Yao, Guan Wang2026-03-06💻 cs

Agent Memory Below the Prompt: Persistent Q4 KV Cache for Multi-Agent LLM Inference on Edge Devices

Este artigo apresenta um sistema para inferência de LLMs multiagentes em dispositivos de borda que persiste caches KV quantizados em 4 bits no disco, permitindo a restauração direta do estado de atenção e reduzindo drasticamente o tempo de geração inicial enquanto otimiza o uso de memória RAM.

Yakov Pyotr Shkolnikov2026-03-06💻 cs

Flowers: A Warp Drive for Neural PDE Solvers

O artigo apresenta o Flowers, uma arquitetura neural inovadora que resolve operadores de EDPs utilizando exclusivamente "warps" multihead para capturar interações globais de forma adaptativa e eficiente, superando modelos baseados em Fourier, convolução e atenção em diversos benchmarks de equações diferenciais parciais.

Till Muser, Alexandra Spitzer, Matti Lassas + 2 more2026-03-06💻 cs

Uncertainty-Calibrated Spatiotemporal Field Diffusion with Sparse Supervision

O artigo apresenta o SOLID, um framework de difusão condicionado a máscaras que aprende dinâmicas espaço-temporais exclusivamente a partir de observações esparsas, permitindo a reconstrução de campos físicos completos com incertezas calibradas sem a necessidade de dados densos ou pré-imputação.

Kevin Valencia, Xihaier Luo, Shinjae Yoo + 1 more2026-03-06💻 cs

Auction-Based RIS Allocation With DRL: Controlling the Cost-Performance Trade-Off

Este artigo propõe um mecanismo de alocação de superfícies inteligentes reconfiguráveis (RIS) baseado em leilão e aprendizado por reforço profundo (DRL) para otimizar o equilíbrio entre custo e desempenho em redes sem fio multicélula, demonstrando que agentes de RL superam estratégias heurísticas ao aprender a maximizar a eficiência espectral dentro de restrições orçamentárias.

Martin Mark Zan, Stefan Schwarz2026-03-06💻 cs

ZorBA: Zeroth-order Federated Fine-tuning of LLMs with Heterogeneous Block Activation

O artigo propõe o ZorBA, um framework de ajuste fino federado para grandes modelos de linguagem que utiliza otimização de ordem zero e ativação heterogênea de blocos para reduzir significativamente o uso de VRAM e a sobrecarga de comunicação sem comprometer a convergência.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-06💻 cs

ASFL: An Adaptive Model Splitting and Resource Allocation Framework for Split Federated Learning

Este artigo propõe o framework ASFL, uma solução adaptativa para Aprendizado Federativo Dividido que otimiza a convergência do modelo e reduz significativamente o atraso e o consumo de energia em redes sem fio através da divisão dinâmica do modelo e da alocação conjunta de recursos, resolvida por um algoritmo de otimização online.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-06💻 cs

CogGen: Cognitive-Load-Informed Fully Unsupervised Deep Generative Modeling for Compressively Sampled MRI Reconstruction

O artigo propõe o CogGen, um modelo generativo profundo totalmente não supervisionado que melhora a reconstrução de MRI amostrada compressivamente ao regular a "carga cognitiva" através de um aprendizado curricular auto-orientado que prioriza progressivamente dados de baixa frequência e alta qualidade antes de introduzir frequências mais altas e ruído.

Qingyong Zhu, Yumin Tan, Xiang Gu + 1 more2026-03-06💻 cs

Explainable Regime Aware Investing

O artigo propõe um framework de construção de carteiras explicável e adaptativo baseado em um Modelo Oculto de Markov com distância de Wasserstein, que demonstra superioridade em desempenho ajustado ao risco e redução de drawdown ao identificar regimes de mercado dinâmicos e preservar a estabilidade das alocações em comparação com benchmarks tradicionais e estimadores não paramétricos.

Amine Boukardagha2026-03-06💻 cs

AMV-L: Lifecycle-Managed Agent Memory for Tail-Latency Control in Long-Running LLM Systems

O artigo apresenta o AMV-L, um framework de gerenciamento de memória para agentes LLM que utiliza uma pontuação de utilidade contínua e tiers de ciclo de vida para limitar o conjunto de trabalho de recuperação, resultando em melhorias significativas na latência de cauda e na taxa de transferência em comparação com políticas baseadas em tempo (TTL) ou LRU.

Emmanuel Bamidele2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

O artigo apresenta o SkillNet, uma infraestrutura aberta que organiza e avalia habilidades de IA em escala, permitindo que agentes aprendam com experiências passadas e melhorem significativamente seu desempenho em tarefas complexas.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

An Explainable Ensemble Framework for Alzheimer's Disease Prediction Using Structured Clinical and Cognitive Data

Esta pesquisa apresenta um framework de aprendizado de conjunto explicável que, ao integrar dados clínicos e cognitivos estruturados com técnicas avançadas de pré-processamento e balanceamento, alcança alta precisão na previsão do Alzheimer, superando redes neurais profundas e destacando variáveis como o MMSE e a idade funcional como fatores determinantes para o suporte à decisão clínica.

Nishan Mitra2026-03-06💻 cs

MPBMC: Multi-Property Bounded Model Checking with GNN-guided Clustering

Este artigo apresenta o MPBMC, uma abordagem híbrida que utiliza embeddings de redes neurais gráficas e estatísticas de tempo de execução para agrupar funcionalmente propriedades de hardware, acelerando significativamente a verificação formal por meio de Model Checking Limitado (BMC) em benchmarks do HWMCC.

Soumik Guha Roy, Sumana Ghosh, Ansuman Banerjee + 2 more2026-03-06💻 cs

On Emergences of Non-Classical Statistical Characteristics in Classical Neural Networks

O artigo propõe a NCnet, uma arquitetura clássica que exibe comportamentos estatísticos não-clássicos e correlações não-locais decorrentes de competições de gradientes entre tarefas compartilhadas, sugerindo que a métrica de não-clássicalidade $S$ pode servir como um indicador útil para entender a dinâmica de treinamento e o desempenho de generalização em redes neurais profundas.

Hanyu Zhao, Yang Wu, Yuexian Hou2026-03-06⚛️ quant-ph

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Este artigo identifica e valida uma nova vulnerabilidade em modelos de linguagem e visão grandes, demonstrando que a otimização de uma função de perda para induzir instabilidade numérica gera imagens que degradam significativamente o desempenho desses modelos, revelando um vetor de falha distinto das perturbações adversariais tradicionais.

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

Learning Unified Distance Metric for Heterogeneous Attribute Data Clustering

Este artigo propõe o paradigma de aprendizado HARR (Reconstrução e Representação de Atributos Heterogêneos), que transforma atributos numéricos e categóricos em um espaço unificado para aprender uma métrica de distância adaptativa e sem parâmetros, melhorando a precisão e a eficiência do agrupamento de dados mistos.

Yiqun Zhang, Mingjie Zhao, Yizhou Chen + 2 more2026-03-06💻 cs

VSPrefill: Vertical-Slash Sparse Attention with Lightweight Indexing for Long-Context Prefilling

O VSPrefill é um mecanismo de atenção esparsa com treinamento leve que explora padrões estruturais verticais e diagonais para reduzir a complexidade do pré-preenchimento de contexto longo para linear, alcançando um aceleramento médio de 4,95x em 128k tokens com apenas 1,65% de perda de precisão em modelos como Qwen3 e LLaMA-3.1.

Chen Guanzhong2026-03-06💻 cs

← Anterior Próximo →