cs.LG artigos | Gist.Science

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

O artigo apresenta o SPAARS, um framework de aprendizado por reforço offline-to-online que utiliza uma exploração curricular segura no espaço latente para superar as limitações de desempenho dos métodos baseados em CVAE, transferindo o controle para o espaço de ações bruto e alcançando maior eficiência de amostragem e retornos superiores em tarefas de robótica.

Swaminathan S K, Aritra Hazra2026-03-11🤖 cs.AI

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

O artigo apresenta o FCDM, um modelo de difusão totalmente convolucional baseado no ConvNeXt que, ao utilizar apenas 50% dos FLOPs do DiT-XL/2, alcança desempenho competitivo com significativamente menos etapas de treinamento e maior eficiência, demonstrando que arquiteturas convolucionais modernas são uma alternativa viável e eficiente para a geração de imagens.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

Reconstructing Movement from Sparse Samples: Enhanced Spatio-Temporal Matching Strategies for Low-Frequency Data

Este artigo propõe quatro melhorias ao algoritmo de correspondência espaço-temporal para rastreamento de trajetórias GPS em baixa frequência, demonstrando ganhos significativos em eficiência computacional e qualidade de trajetória através de validação em dados reais de Milão.

Ali Yousefian, Arianna Burzacchi, Simone Vantini2026-03-11🤖 cs.LG

Impact of Markov Decision Process Design on Sim-to-Real Reinforcement Learning

Este trabalho analisa sistematicamente como as escolhas de design do Processo de Decisão de Marko (MDP) afetam a transferência simulação-realidade no controle de processos industriais, demonstrando através de uma tarefa de mistura de cores que modelos de dinâmica baseados em física superam significativamente os modelos simplificados, alcançando até 50% de sucesso em hardware real sob restrições de precisão rigorosas.

Tatjana Krau, Jorge Mandlmaier, Tobias Damm, Frieder Heieck2026-03-11🤖 cs.LG

From Weighting to Modeling: A Nonparametric Estimator for Off-Policy Evaluation

Este artigo propõe uma abordagem de ponderação não paramétrica (NW) e sua extensão auxiliada por modelo (MNW) para avaliação de políticas fora de política em bandits contextuais, alcançando estimativas de valor com viés baixo e variância significativamente reduzida em comparação com métodos tradicionais como ponderação por probabilidade inversa e estimadores duplamente robustos.

Rong J. B. Zhu2026-03-11🤖 cs.LG

Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers

Este trabalho apresenta o VMoER, uma abordagem bayesiana estruturada que confere quantificação de incerteza calibrada e escalável aos modelos de mistura de especialistas (MoE) ao aplicar inferência variacional apenas na etapa de roteamento, melhorando significativamente a estabilidade, a calibração e a detecção de dados fora da distribuição com um custo computacional marginal.

Albus Yizhuo Li, Matthew Wicker2026-03-11🤖 cs.AI

Temporal-Conditioned Normalizing Flows for Multivariate Time Series Anomaly Detection

Este artigo apresenta os Fluxos Normalizadores Condicionados Temporalmente (tcNF), uma nova estrutura para detecção de anomalias em séries temporais multivariadas que modela com precisão as dependências temporais e a incerteza ao condicionar o fluxo a observações anteriores, demonstrando robustez e precisão superiores em comparação com métodos existentes.

David Baumgartner, Helge Langseth, Kenth Engø-Monsen, Heri Ramampiaro2026-03-11🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

O artigo apresenta o TrainDeeploy, um framework que viabiliza o primeiro pipeline completo de ajuste fino on-device para modelos CNN e Transformer em SoCs de ultra-baixo consumo, utilizando estratégias como LoRA para reduzir significativamente o uso de memória e o número de parâmetros treináveis, alcançando até 11 imagens ajustadas por segundo em hardware de borda extrema.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca Benini2026-03-11🤖 cs.LG

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

O artigo demonstra que modelos de linguagem podem adquirir subliminarmente preferências comportamentais de um modelo professor ao serem treinados em paráfrases fiéis de dados semânticamente não relacionados ou até contraditórios, revelando uma vulnerabilidade crítica em pipelines de geração de dados sintéticos que não pode ser detectada apenas pela inspeção do conteúdo.

Isaia Gisler (ETH Zürich), Zhonghao He (University of Cambridge), Tianyi Qiu (Peking University)2026-03-11🤖 cs.LG

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

O artigo apresenta o EDA, um framework eficiente em parâmetros e dados que adapta modelos de rascunho para modelos-alvo ajustados a domínios específicos, restaurando o desempenho da decodificação especulativa com custos de treinamento reduzidos através de uma arquitetura desacoplada, regeneração de dados e seleção de amostras.

Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Yuhao Chen, Qingyu Zhang, Jixiang Luo, Xuelong Li, Rongrong Ji2026-03-11🤖 cs.AI

What Do We Care About in Bandits with Noncompliance? BRACE: Bandits with Recommendations, Abstention, and Certified Effects

O artigo apresenta o BRACE, um algoritmo sem parâmetros para bandits com não conformidade que resolve o dilema de escolha de objetivos entre o bem-estar das recomendações e o aprendizado de tratamentos, garantindo validação simultânea de políticas e intervalos estruturais honestos mesmo sob identificação fraca ou falha de homogeneidade.

Nicolás Della Penna2026-03-11🤖 cs.LG

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Este artigo demonstra que o algoritmo de dualidade do espaço de estados do Mamba-2 pode ser implementado inteiramente usando primitivas padrão do XLA, eliminando a dependência de kernels CUDA personalizados e permitindo uma inferência autônoma com cache $O(1)$ que funciona de forma idêntica em CPUs, GPUs NVIDIA e TPUs a partir de uma única fonte JAX.

Cosmo Santoni2026-03-11🤖 cs.AI

Learning Bayesian and Markov Networks with an Unreliable Oracle

Este artigo investiga a aprendizagem de estrutura de redes de Markov e Bayesianas na presença de um oráculo de independência condicional não confiável, demonstrando que redes de Markov podem ser identificadas mesmo com erros moderadamente exponenciais sob certas condições de conectividade, enquanto redes Bayesianas não toleram erros para identificação garantida, e apresentando algoritmos para casos onde a estrutura é unicamente identificável.

Juha Harviainen, Pekka Parviainen, Vidya Sagar Sharma2026-03-11🤖 cs.LG

a-TMFG: Scalable Triangulated Maximally Filtered Graphs via Approximate Nearest Neighbors

Este artigo apresenta o algoritmo a-TMFG, uma abordagem escalável que supera as limitações de memória e tempo do TMFG tradicional ao utilizar grafos de k-vizinhos mais próximos e gerenciamento de memória para construir representações gráficas eficientes em conjuntos de dados com milhões de observações.

Lionel Yelibi2026-03-11🤖 cs.LG

An Optimal Control Approach To Transformer Training

Este artigo propõe uma abordagem de controle ótimo rigorosa para o treinamento de Transformers, modelando a arquitetura como um sistema de partículas controlado com dinâmica de McKean-Vlasov e utilizando um processo de decisão de Markov levantado em medidas de probabilidade para estabelecer políticas globalmente ótimas e robustas, oferecendo uma alternativa viável aos métodos baseados em gradiente que não exigem suavidade ou convexidade.

Ka\u{g}an Akman, Naci Saldı, Serdar Yüksel2026-03-11🤖 cs.LG

SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

O artigo apresenta o SCDP, uma abordagem que utiliza um modelo de difusão condicionado a sensores e treinamento com observações mistas para aprender locomoção em humanoides apenas com dados onboard, alcançando desempenho comparável a métodos que usam estados privilegiados e demonstrando sucesso em robôs reais sem necessidade de estimativa de estado externa.

Milo Carroll, Tianhu Peng, Lingfan Bao, Chengxu Zhou, Zhibin Li2026-03-11🤖 cs.LG

Routing without Forgetting

O artigo apresenta o "Routing without Forgetting" (RwF), uma arquitetura de transformador que utiliza camadas de recuperação associativa baseada em energia para realizar o aprendizado contínuo online sem esquecer, gerando prompts dinâmicos via recuperação associativa de um único passo em vez de depender de otimização iterativa baseada em gradiente.

Alessio Masano, Giovanni Bellitto, Dipam Goswani, Joost Van de Weijer, Concetto Spampinato2026-03-11🤖 cs.AI

Towards Understanding Adam Convergence on Highly Degenerate Polynomials

Este trabalho demonstra que o algoritmo Adam possui propriedades de autoconvergência inerentes em polinômios altamente degenerados, alcançando convergência linear local sem agendadores externos graças a um mecanismo de desacoplamento que amplifica exponencialmente a taxa de aprendizado, superando significativamente métodos como o Gradiente Descendente e Momentum.

Zhiwei Bai, Jiajie Zhao, Zhangchen Zhou, Zhi-Qin John Xu, Yaoyu Zhang2026-03-11🤖 cs.LG

Nonparametric Variational Differential Privacy via Embedding Parameter Clipping

Este trabalho introduz uma estratégia de recorte de parâmetros fundamentada teoricamente para o Nonparametric Variational Differential Privacy (NVDP), que melhora a estabilidade numérica e otimiza o equilíbrio entre privacidade e utilidade ao restringir os parâmetros do modelo para minimizar o limite superior da Divergência de Rényi.

Dina El Zein, Shashi Kumar, James Henderson2026-03-11🤖 cs.LG

Memorization capacity of deep ReLU neural networks characterized by width and depth

Este artigo caracteriza a capacidade de memorização de redes neurais profundas com ativação ReLU, estabelecendo que o produto dos quadrados da largura e da profundidade ( $W^2L^2$ ) deve ser da ordem de $\mathcal{O}(N\log(\delta^{-1}))$ para memorizar $N$ pontos de dados, demonstrando que essa construção é ótima até fatores logarítmicos e definindo explicitamente o trade-off entre largura e profundidade nesse regime.

Xin Yang, Yunfei Yang2026-03-11🤖 cs.LG

← Anterior Próximo →

cs.LG