Posterior Sampling Reinforcement Learning with Gaussian Processes for Continuous Control: Sublinear Regret Bounds for Unbounded State Spaces

Este artigo estabelece limites de arrependimento sublineares para o algoritmo de Reinforcement Learning com Amostragem Posterior baseada em Processos Gaussianos (GP-PSRL) em espaços de estado ilimitados, demonstrando que os estados visitados permanecem confinados e obtendo um limite de arrependimento bayesiano de ordem O~(H3/2γT/HT)\widetilde{\mathcal{O}}(H^{3/2}\sqrt{\gamma_{T/H} T}) que resolve as limitações teóricas anteriores.

Hamish Flynn, Joe Watson, Ingmar Posner, Jan PetersTue, 10 Ma🤖 cs.LG

Towards plausibility in time series counterfactual explanations

Este artigo apresenta um novo método baseado em otimização por gradiente que gera explicações contrafactuais plausíveis para problemas de classificação de séries temporais, integrando o alinhamento soft-DTW com k-vizinhos mais próximos para garantir que as explicações geradas mantenham uma estrutura temporal realista e alinhada à distribuição da classe-alvo.

Marcin Kostrzewa, Krzysztof Galus, Maciej Zi\k{e}baTue, 10 Ma🤖 cs.LG

Beyond the Markovian Assumption: Robust Optimization via Fractional Weyl Integrals in Imbalanced Data

Este artigo propõe um novo algoritmo de otimização baseado no Cálculo Fracionário, especificamente utilizando o Integral de Weyl Fracionário Ponderado, que substitui os atualizações de gradiente instantâneas por uma memória histórica dinâmica para mitigar o sobreajuste e melhorar significativamente o desempenho em conjuntos de dados desbalanceados, como detecção de fraude financeira e diagnósticos médicos.

Gustavo A. DorregoTue, 10 Ma🤖 cs.LG

Breaking the Bias Barrier in Concave Multi-Objective Reinforcement Learning

Este trabalho supera a barreira de viés no aprendizado por reforço multi-objetivo com escalarização côncava, propondo um algoritmo de Gradiente de Política Natural com estimador de Monte Carlo de múltiplos níveis que atinge a complexidade de amostra ótima O~(ϵ2)\widetilde{\mathcal{O}}(\epsilon^{-2}), eliminando o viés intrínseco que limitava métodos anteriores a O~(ϵ4)\widetilde{\mathcal{O}}(\epsilon^{-4}).

Swetha Ganesh, Vaneet AggarwalTue, 10 Ma🤖 cs.LG

Impact of Connectivity on Laplacian Representations in Reinforcement Learning

Este trabalho estabelece limites teóricos para o erro de aproximação de funções de valor em aprendizado por reforço, demonstrando como a qualidade da representação baseada em autovetores do Laplaciano escala com a conectividade algébrica do grafo de transições do MDP, mesmo quando essa estrutura é estimada a partir de trajetórias amostrais e sob políticas não uniformes.

Tommaso Giorgi, Pierriccardo Olivieri, Keyue Jiang, Laura Toni, Matteo PapiniTue, 10 Ma🤖 cs.LG

Structural Causal Bottleneck Models

O artigo apresenta os Modelos de Gargalo Causal Estrutural (SCBMs), uma nova classe de modelos causais que assume que os efeitos entre variáveis de alta dimensão dependem apenas de estatísticas resumidas de baixa dimensão, oferecendo uma estrutura flexível para redução de dimensionalidade específica de tarefas e estimável com algoritmos simples, com benefícios demonstrados na transferência de aprendizado com poucos dados.

Simon Bing, Jonas Wahl, Jakob RungeTue, 10 Ma🤖 cs.LG

Losing dimensions: Geometric memorization in generative diffusion

O artigo propõe uma teoria de memorização geométrica que demonstra como os modelos de difusão, ao enfrentar escassez de dados, passam por um colapso suave de suas dimensões latentes, condensando gradualmente a geração de novas variações em uma replicação quase pontual de exemplos de treinamento, um fenômeno distinto entre a generalização e a cópia exata.

Beatrice Achilli, Enrico Ventura, Gianluigi Silvestri, Bao Pham, Gabriel Raya, Dmitry Krotov, Carlo Lucibello, Luca AmbrogioniThu, 12 Ma📊 stat