XConv: Low-memory stochastic backpropagation for convolutional layers

O artigo propõe o XConv, uma camada de convolução de substituição direta que reduz significativamente o uso de memória durante o treinamento de redes neurais convolucionais ao armazenar ativações comprimidas e aproximar gradientes via estimativa de traço aleatória, mantendo a compatibilidade com arquiteturas existentes e garantindo desempenho comparável aos métodos de gradiente exato.

Anirudh Thatipelli, Jeffrey Sam, Mathias Louboutin, Ali Siahkoohi, Rongrong Wang, Felix J. HerrmannWed, 11 Ma🤖 cs.LG

A Survey on Decentralized Federated Learning

Este artigo apresenta uma revisão sistemática do Aprendizado Federado Descentralizado (DFL) de 2018 a 2026, organizando os métodos em famílias arquitetônicas, propondo uma taxonomia baseada em desafios, analisando práticas de avaliação e delineando direções futuras para pesquisas em segurança, privacidade e incentivos em ambientes descentralizados.

Edoardo Gabrielli, Anthony Di Pietro, Dario Fenoglio, Giovanni Pica, Gabriele TolomeiWed, 11 Ma🤖 cs.LG

Polynomially Over-Parameterized Convolutional Neural Networks Contain Structured Strong Winning Lottery Tickets

Este artigo supera as limitações matemáticas anteriores ao provar, utilizando avanços no problema da soma de subconjuntos multidimensional, que redes neurais convolucionais superparametrizadas contêm sub-redes estruturadas que podem aproximar redes menores sem treinamento, estabelecendo assim o primeiro limite sub-exponencial para o Hipótese da Bilhete de Loteria Forte no contexto de poda estruturada.

Arthur da Cunha, Francesco d'Amore, Emanuele NataleWed, 11 Ma🤖 cs.LG

Provable Filter for Real-world Graph Clustering

Este artigo apresenta um novo método de agrupamento de grafos baseado em filtros prováveis que, ao identificar e separar arestas homófilas e heterófilas para capturar informações holísticas e realçar características relevantes, supera os métodos atuais tanto em grafos homófilos quanto heterófilos, oferecendo uma solução teórica e prática para a disparidade estrutural encontrada em grafos do mundo real.

Xuanting Xie, Erlin Pan, Zhao Kang, Wenyu Chen, Bingheng LiWed, 11 Ma🤖 cs.LG

Sparse Variational Student-t Processes for Heavy-tailed Modeling

O artigo apresenta os Processos de Student-t Variacionais Esparsos (SVTP), um novo framework que estende o método de pontos induzidos esparsos para processos de Student-t, oferecendo algoritmos de inferência escaláveis e robustos que superam os Processos Gaussianos Esparsos na modelagem de dados com caudas pesadas e outliers, mantendo eficiência computacional em grandes conjuntos de dados.

Jian Xu, Delu Zeng, John PaisleyWed, 11 Ma🤖 cs.AI

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Este artigo propõe um quadro unificado que modela a quantização e a esparsificação como ruído aditivo e introduz uma transformada de dequantização por dedução para estabelecer um caminho de gradiente explícito, permitindo o treinamento estável e robusto de redes neurais em precisões arbitrárias e níveis de esparsidade, incluindo regimes sub-bit e A1W1.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

ARLBench: Flexible and Efficient Benchmarking for Hyperparameter Optimization in Reinforcement Learning

O artigo apresenta o ARLBench, um benchmark eficiente e flexível para otimização de hiperparâmetros em Aprendizado por Reforço que permite a comparação de diversas abordagens automatizadas utilizando um subconjunto representativo de tarefas, reduzindo drasticamente a necessidade de recursos computacionais e facilitando pesquisas mais acessíveis e generalizáveis.

Jannis Becktepe, Julian Dierkes, Carolin Benjamins, Aditya Mohan, David Salinas, Raghu Rajan, Frank Hutter, Holger Hoos, Marius Lindauer, Theresa EimerWed, 11 Ma🤖 cs.LG

DRUPI: Dataset Reduction Using Privileged Information

O artigo apresenta o DRUPI, um método de condensação de dados que melhora o desempenho de modelos ao sintetizar informações privilegiadas (como rótulos de características ou atenção) junto com o conjunto de dados reduzido, oferecendo supervisão auxiliar que supera as abordagens tradicionais baseadas apenas em pares de dados e rótulos.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng ZhangWed, 11 Ma🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Este artigo propõe um método de aprendizado de representação não supervisionado que fatora transformações de variáveis latentes em componentes esparsos, decompondo um modelo de fluxo de probabilidade em campos vetoriais rotacionais e potenciais para gerar representações disjuntas que alcançam resultados de ponta em verossimilhança de dados e erros de equivariância aproximada.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Learning responsibility allocations for multi-agent interactions: A differentiable optimization approach with control barrier functions

Este trabalho propõe uma abordagem baseada em otimização diferenciável e funções de barreira de controle para aprender, a partir de dados, alocações de responsabilidade que quantificam como agentes autônomos ajustam seu comportamento para garantir interações seguras e socialmente alinhadas.

Isaac Remy, David Fridovich-Keil, Karen LeungWed, 11 Ma🤖 cs.LG

Adaptive and Stratified Subsampling for High-Dimensional Robust Estimation

Este artigo propõe e analisa dois estimadores de subamostragem (Amostragem por Importância Adaptativa e Subamostragem Estratificada) para regressão esparsa de alta dimensão robusta sob ruído pesado, contaminação e dependência, fechando a lacuna entre teoria e algoritmo ao estabelecer taxas ótimas minimax, intervalos de confiança válidos e superioridade empírica sobre métodos uniformes.

Prateek Mittal, Joohi ChauhanWed, 11 Ma🤖 cs.LG

Scalable Message Passing Neural Networks: No Need for Attention in Large Graph Representation Learning

O artigo propõe as Redes Neurais de Passagem de Mensagens Escaláveis (SMPNNs), que substituem o mecanismo de atenção por convolução padrão em blocos Transformer com normalização pré-camada, permitindo redes profundas de alto desempenho para aprendizado em grandes grafos sem o custo computacional da atenção e com fundamentação teórica sobre a necessidade de conexões residuais para evitar o sobre-suavização.

Haitz Sáez de Ocáriz Borde, Artem Lukoianov, Anastasis Kratsios, Michael Bronstein, Xiaowen DongWed, 11 Ma🤖 cs.LG

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

O artigo apresenta o CuriousBot, um sistema que utiliza um grafo de objetos relacionais 3D para superar as limitações da exploração móvel baseada apenas em percepção, permitindo que robôs interajam ativamente com o ambiente em espaços complexos e superando métodos que dependem exclusivamente de modelos de linguagem e visão.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu LiWed, 11 Ma🤖 cs.LG