cs.LG artigos | Gist.Science

XConv: Low-memory stochastic backpropagation for convolutional layers

O artigo propõe o XConv, uma camada de convolução de substituição direta que reduz significativamente o uso de memória durante o treinamento de redes neurais convolucionais ao armazenar ativações comprimidas e aproximar gradientes via estimativa de traço aleatória, mantendo a compatibilidade com arquiteturas existentes e garantindo desempenho comparável aos métodos de gradiente exato.

Anirudh Thatipelli, Jeffrey Sam, Mathias Louboutin, Ali Siahkoohi, Rongrong Wang, Felix J. HerrmannWed, 11 Ma🤖 cs.LG

A Survey on Decentralized Federated Learning

Este artigo apresenta uma revisão sistemática do Aprendizado Federado Descentralizado (DFL) de 2018 a 2026, organizando os métodos em famílias arquitetônicas, propondo uma taxonomia baseada em desafios, analisando práticas de avaliação e delineando direções futuras para pesquisas em segurança, privacidade e incentivos em ambientes descentralizados.

Edoardo Gabrielli, Anthony Di Pietro, Dario Fenoglio, Giovanni Pica, Gabriele TolomeiWed, 11 Ma🤖 cs.LG

Polynomially Over-Parameterized Convolutional Neural Networks Contain Structured Strong Winning Lottery Tickets

Este artigo supera as limitações matemáticas anteriores ao provar, utilizando avanços no problema da soma de subconjuntos multidimensional, que redes neurais convolucionais superparametrizadas contêm sub-redes estruturadas que podem aproximar redes menores sem treinamento, estabelecendo assim o primeiro limite sub-exponencial para o Hipótese da Bilhete de Loteria Forte no contexto de poda estruturada.

Arthur da Cunha, Francesco d'Amore, Emanuele NataleWed, 11 Ma🤖 cs.LG

Provable Filter for Real-world Graph Clustering

Este artigo apresenta um novo método de agrupamento de grafos baseado em filtros prováveis que, ao identificar e separar arestas homófilas e heterófilas para capturar informações holísticas e realçar características relevantes, supera os métodos atuais tanto em grafos homófilos quanto heterófilos, oferecendo uma solução teórica e prática para a disparidade estrutural encontrada em grafos do mundo real.

Xuanting Xie, Erlin Pan, Zhao Kang, Wenyu Chen, Bingheng LiWed, 11 Ma🤖 cs.LG

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps

Este artigo apresenta um framework baseado em aprendizado profundo que combina a descoberta de coordenadas e mapas de fluxo para criar uma abordagem de avanço temporal precisa e computacionalmente eficiente, capaz de simular sistemas multiescala complexos com alta acurácia e menor custo computacional.

Asif Hamid, Danish Rafiq, Shahkar Ahmad Nahvi, Mohammad Abid BazazWed, 11 Ma🤖 cs.LG

Sparse Variational Student-t Processes for Heavy-tailed Modeling

O artigo apresenta os Processos de Student-t Variacionais Esparsos (SVTP), um novo framework que estende o método de pontos induzidos esparsos para processos de Student-t, oferecendo algoritmos de inferência escaláveis e robustos que superam os Processos Gaussianos Esparsos na modelagem de dados com caudas pesadas e outliers, mantendo eficiência computacional em grandes conjuntos de dados.

Jian Xu, Delu Zeng, John PaisleyWed, 11 Ma🤖 cs.AI

HYGENE: A Diffusion-based Hypergraph Generation Method

O artigo apresenta o HYGENE, o primeiro método baseado em difusão e aprendizado profundo para gerar hipergrafos realistas e diversos através de uma abordagem de expansão local progressiva sobre sua representação bipartida.

Dorian Gailhard, Enzo Tartaglione, Lirida Naviner, Jhony H. GiraldoWed, 11 Ma🤖 cs.LG

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Este artigo propõe um quadro unificado que modela a quantização e a esparsificação como ruído aditivo e introduz uma transformada de dequantização por dedução para estabelecer um caminho de gradiente explícito, permitindo o treinamento estável e robusto de redes neurais em precisões arbitrárias e níveis de esparsidade, incluindo regimes sub-bit e A1W1.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

ARLBench: Flexible and Efficient Benchmarking for Hyperparameter Optimization in Reinforcement Learning

O artigo apresenta o ARLBench, um benchmark eficiente e flexível para otimização de hiperparâmetros em Aprendizado por Reforço que permite a comparação de diversas abordagens automatizadas utilizando um subconjunto representativo de tarefas, reduzindo drasticamente a necessidade de recursos computacionais e facilitando pesquisas mais acessíveis e generalizáveis.

Jannis Becktepe, Julian Dierkes, Carolin Benjamins, Aditya Mohan, David Salinas, Raghu Rajan, Frank Hutter, Holger Hoos, Marius Lindauer, Theresa EimerWed, 11 Ma🤖 cs.LG

DRUPI: Dataset Reduction Using Privileged Information

O artigo apresenta o DRUPI, um método de condensação de dados que melhora o desempenho de modelos ao sintetizar informações privilegiadas (como rótulos de características ou atenção) junto com o conjunto de dados reduzido, oferecendo supervisão auxiliar que supera as abordagens tradicionais baseadas apenas em pares de dados e rótulos.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng ZhangWed, 11 Ma🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Este artigo propõe um método de aprendizado de representação não supervisionado que fatora transformações de variáveis latentes em componentes esparsos, decompondo um modelo de fluxo de probabilidade em campos vetoriais rotacionais e potenciais para gerar representações disjuntas que alcançam resultados de ponta em verossimilhança de dados e erros de equivariância aproximada.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Learning responsibility allocations for multi-agent interactions: A differentiable optimization approach with control barrier functions

Este trabalho propõe uma abordagem baseada em otimização diferenciável e funções de barreira de controle para aprender, a partir de dados, alocações de responsabilidade que quantificam como agentes autônomos ajustam seu comportamento para garantir interações seguras e socialmente alinhadas.

Isaac Remy, David Fridovich-Keil, Karen LeungWed, 11 Ma🤖 cs.LG

Calabi-Yau metrics through Grassmannian learning and Donaldson's algorithm

Este artigo propõe uma nova abordagem para obter aproximações de métricas de Ricci-plano em variedades de Calabi-Yau, combinando o algoritmo de Donaldson com técnicas de aprendizado de máquina que utilizam descida de gradiente em variedades de Grassmannian e no fibrado de métricas hermitianas, validada na família de Dwork de três-variedades.

Carl Henrik Ek, Oisin Kim, Challenger MishraWed, 11 Ma🤖 cs.LG

Adaptive and Stratified Subsampling for High-Dimensional Robust Estimation

Este artigo propõe e analisa dois estimadores de subamostragem (Amostragem por Importância Adaptativa e Subamostragem Estratificada) para regressão esparsa de alta dimensão robusta sob ruído pesado, contaminação e dependência, fechando a lacuna entre teoria e algoritmo ao estabelecer taxas ótimas minimax, intervalos de confiança válidos e superioridade empírica sobre métodos uniformes.

Prateek Mittal, Joohi ChauhanWed, 11 Ma🤖 cs.LG

Scalable Message Passing Neural Networks: No Need for Attention in Large Graph Representation Learning

O artigo propõe as Redes Neurais de Passagem de Mensagens Escaláveis (SMPNNs), que substituem o mecanismo de atenção por convolução padrão em blocos Transformer com normalização pré-camada, permitindo redes profundas de alto desempenho para aprendizado em grandes grafos sem o custo computacional da atenção e com fundamentação teórica sobre a necessidade de conexões residuais para evitar o sobre-suavização.

Haitz Sáez de Ocáriz Borde, Artem Lukoianov, Anastasis Kratsios, Michael Bronstein, Xiaowen DongWed, 11 Ma🤖 cs.LG

SPDIM: Source-Free Unsupervised Conditional and Label Shift Adaptation in EEG

O artigo propõe o SPDIM, uma estratégia de otimização em variedades Riemannianas que utiliza o princípio de maximização de informação para adaptar modelos de EEG em cenários sem fontes de dados rotulados, superando as limitações de métodos anteriores ao lidar eficazmente com deslocamentos de rótulos e de distribuição.

Shanglin Li, Motoaki Kawanabe, Reinmar J. KoblerWed, 11 Ma🤖 cs.LG

Prognostics for Autonomous Deep-Space Habitat Health Management under Multiple Unknown Failure Modes

Este artigo propõe uma estrutura de prognóstico não supervisionada para habitats de espaço profundo que, utilizando dados de falha sem rótulos, identifica simultaneamente modos de falha latentes e seleciona sensores informativos para prever a vida útil restante com maior precisão.

Benjamin Peters, Ayush Mohanty, Xiaolei Fang, Stephen K. Robinson, Nagi GebraeelWed, 11 Ma🤖 cs.LG

Morphological-Symmetry-Equivariant Heterogeneous Graph Neural Network for Robotic Dynamics Learning

O artigo apresenta o MS-HGNN, uma rede neural gráfica heterogênea que incorpora estruturas cinemáticas e simetrias morfológicas como restrições de aprendizado para garantir alta generalização e eficiência no aprendizado da dinâmica de robôs, com validação experimental em robôs quadrúpedes.

Fengze Xie, Sizhe Wei, Yue Song, Yisong Yue, Lu GanWed, 11 Ma🤖 cs.LG

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

O artigo apresenta o CuriousBot, um sistema que utiliza um grafo de objetos relacionais 3D para superar as limitações da exploração móvel baseada apenas em percepção, permitindo que robôs interajam ativamente com o ambiente em espaços complexos e superando métodos que dependem exclusivamente de modelos de linguagem e visão.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu LiWed, 11 Ma🤖 cs.LG

Molecular Fingerprints Are Strong Models for Peptide Function Prediction

Este artigo demonstra que modelos simples baseados em "impressões digitais" moleculares (fingerprint) superam abordagens complexas de redes neurais e transformers na previsão de funções peptídicas, desafiando a premissa de que a modelagem de interações de longo alcance é essencial para essa tarefa.

Jakub Adamczyk, Piotr Ludynia, Wojciech CzechWed, 11 Ma🤖 cs.LG