cs.LG artigos | Gist.Science

The Bayesian Geometry of Transformer Attention

O artigo "The Bayesian Geometry of Transformer Attention" demonstra que, em ambientes controlados chamados "túneis de vento bayesianos", os transformadores realizam inferência bayesiana com alta precisão através de um mecanismo geométrico específico envolvendo o alinhamento progressivo de chaves e consultas e uma variedade de valores de baixa dimensão, estabelecendo uma separação arquitetônica clara em relação a MLPs e oferecendo uma base para conectar sistemas pequenos verificáveis a fenômenos de raciocínio em grandes modelos de linguagem.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Este artigo estabelece que o treinamento por entropia cruzada em transformadores induz uma dinâmica de roteamento baseada em vantagens e atualizações de valores ponderadas por responsabilidade, que atuam como um procedimento EM de duas escalas temporais para esculpir geometrias bayesianas de baixa dimensão que sustentam o raciocínio probabilístico em contexto.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Geometric Scaling of Bayesian Inference in LLMs

Este estudo demonstra que modelos de linguagem modernos preservam uma estrutura geométrica subjacente que organiza suas atualizações bayesianas aproximadas, embora essa geometria atue mais como uma leitura privilegiada da incerteza do que como um gargalo computacional singular.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12🤖 cs.LG

Inferring Clinically Relevant Molecular Subtypes of Pancreatic Cancer from Routine Histopathology Using Deep Learning

O artigo apresenta o PanSubNet, um modelo de aprendizado profundo interpretável que classifica subtipos moleculares clinicamente relevantes do câncer de pâncreas diretamente a partir de lâminas histológicas rotineiras (H&E), oferecendo uma alternativa rápida, econômica e generalizável aos métodos baseados em sequenciamento de RNA para estratificação prognóstica e preditiva.

Abdul Rehman Akbar, Alejandro Levya, Ashwini Esnakula, Elshad Hasanov, Anne Noonan, Lingbin Meng, Susan Tsai, Vaibhav Sahai, Midhun Malla, Sarbajit Mukherjee, Upender Manne, Anil Parwani, Wei Chen, Ashish Manne, Muhammad Khalid Khan Niazi2026-03-12⚡ eess

Over-Searching in Search-Augmented Large Language Models

Este artigo investiga o problema do "excesso de busca" em modelos de linguagem aumentados por busca, propondo a métrica Tokens Per Correctness (TPC) para avaliar o equilíbrio entre desempenho e custo, identificando fatores que agravam o fenômeno e apresentando estratégias de mitigação e um novo conjunto de dados (OverSearchQA) para pesquisas futuras.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra2026-03-12🤖 cs.LG

Sampling via Stochastic Interpolants by Langevin-based Velocity and Initialization Estimation in Flow ODEs

Este artigo propõe um método inovador para amostragem de distribuições de Boltzmann não normalizadas, utilizando uma sequência de amostradores de Langevin para simular eficientemente um fluxo de equação diferencial ordinária (ODE) derivado de interpolantes estocásticos lineares, oferecendo garantias teóricas de convergência e demonstrando eficácia em distribuições multimodais e tarefas de inferência bayesiana.

Chenguang Duan, Yuling Jiao, Gabriele Steidl, Christian Wald, Jerry Zhijian Yang, Ruizhe Zhang2026-03-12📊 stat

Error Analysis of Bayesian Inverse Problems with Generative Priors

Este artigo apresenta uma análise teórica que estabelece limites quantitativos de erro para problemas inversos bayesianos utilizando priores generativos treinados, demonstrando que o erro no posterior herda a taxa de convergência do prior na distância de Wasserstein, com validação através de experimentos numéricos e um problema inverso de EDP elíptica.

Bamdad Hosseini, Ziqi Huang2026-03-12📊 stat

Time series forecasting with Hahn Kolmogorov-Arnold networks

O artigo apresenta o HaKAN, um modelo inovador para previsão de séries temporais multivariadas que utiliza redes Kolmogorov-Arnold com funções de ativação baseadas em polinômios de Hahn para oferecer uma alternativa leve, interpretável e de alto desempenho, superando métodos recentes como Transformers e MLPs.

Md Zahidul Hasan, A. Ben Hamza, Nizar Bouguila2026-03-12📊 stat

Breaking the Stochasticity Barrier: An Adaptive Variance-Reduced Method for Variational Inequalities

Este artigo apresenta o VR-SDA-A, um método inovador de redução de variância que combina momentum recursivo com verificação de curvatura por mesma amostra para superar a barreira da estocasticidade em desigualdades variacionais estocásticas, alcançando complexidade de oráculo ótima de O(ε⁻³) e permitindo adaptação automática da taxa de aprendizado em cenários não convexos e não côncavos.

Yungi Jeong, Takumi Otsuka2026-03-12🤖 cs.LG

Singular Bayesian Neural Networks

O artigo propõe redes neurais bayesianas singularizadas que, ao parametrizar os pesos como produtos de matrizes de baixo posto, reduzem drasticamente o número de parâmetros e melhoram a calibração e a detecção de dados fora da distribuição, mantendo um desempenho competitivo com ensembles profundos.

Mame Diarra Toure, David A. Stephens2026-03-12📊 stat

Emergence of Distortions in High-Dimensional Guided Diffusion Models

Este artigo formaliza a perda de diversidade em modelos de difusão guiados por classificação (CFG) como uma distorção generativa, demonstrando através de análise de física estatística que esse fenômeno surge em um regime de alta dimensão e propondo um novo cronograma de orientação com janela de orientação negativa para mitigar a redução de variância sem comprometer a separabilidade das classes.

Enrico Ventura, Beatrice Achilli, Luca Ambrogioni, Carlo Lucibello2026-03-12📊 stat

Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

Este artigo demonstra teoricamente e valida empiricamente que as alucinações em modelos de linguagem são uma consequência inevitável da otimização de memória sob capacidade limitada, onde a estratégia informacionalmente ótima para testes de associação em dados esparsos exige a atribuição de alta confiança a alguns fatos incorretos como resultado da compressão com perdas.

Anxin Guo, Jingwei Li2026-03-12💬 cs.CL

Grounding Generated Videos in Feasible Plans via World Models

O artigo apresenta o GVP-WM, um método que utiliza modelos de mundo para corrigir planos gerados por vídeo, transformando-os em sequências de ações viáveis e fisicamente consistentes por meio de otimização no espaço latente.

Christos Ziakas, Amir Bar, Alessandra Russo2026-03-12🤖 cs.LG

Expert-Data Alignment Governs Generation Quality in Decentralized Diffusion Models

O estudo demonstra que a qualidade da geração em Modelos de Difusão Descentralizados é governada pelo alinhamento entre os especialistas e os dados, e não pela estabilidade numérica, pois o roteamento que prioriza especialistas treinados em distribuições de dados próximas ao estado atual de remoção de ruído produz resultados superiores, mesmo que isso resulte em dinâmicas de amostragem menos estáveis.

Marcos Villagra, Bidhan Roy, Raihan Seraj, Zhiying Jiang2026-03-12🤖 cs.LG

A Bandit-Based Approach to Educational Recommender Systems: Contextual Thompson Sampling for Learner Skill Gain Optimization

Este artigo apresenta uma abordagem baseada em bandit contextual, utilizando amostragem de Thompson, para otimizar a sequência personalizada de exercícios em sistemas de recomendação educacional, demonstrando que tal método maximiza o ganho de habilidades dos alunos em plataformas de tutoria online em larga escala.

Lukas De Kerpel, Arthur Thuy, Dries F. Benoit2026-03-12📊 stat

Universality of General Spiked Tensor Models

Este artigo estabelece um princípio de universalidade para modelos de tensores espigados assimétricos, demonstrando que, sob condições de momento finito, o comportamento espectral e os limites estatísticos do estimador de máxima verossimilhança selecionado são robustos e idênticos aos do caso gaussiano, mesmo na presença de ruído não gaussiano.

Yanjin Xiang, Zhihua Zhang2026-03-12📊 stat

BLITZRANK: Principled Zero-shot Ranking Agents with Tournament Graphs

O artigo apresenta o BLITZRANK, um framework baseado em grafos de torneio que permite a agentes de classificação zero-shot identificar os melhores itens com maior precisão e eficiência, reduzindo significativamente o custo computacional ao extrair e agregar preferências implícitas de comparações múltiplas.

Sheshansh Agrawal, Thien Hang Nguyen, Douwe Kiela2026-03-12🤖 cs.LG

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

Este artigo propõe o Fine-grained Group Policy Optimization (FGO), um algoritmo de Aprendizado por Reforço que comprime de forma eficiente o raciocínio passo a passo (Chain-of-Thought) de Grandes Modelos de Linguagem, superando limitações de eficiência de dados e colapso de entropia do GRPO sem degradar o desempenho em benchmarks de raciocínio.

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin2026-03-12🤖 cs.LG

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

O artigo propõe o GOT-JEPA, um framework de pré-treinamento que adapta a arquitetura JEPA para prever modelos de rastreamento em vez de apenas características visuais, combinando-o com o módulo OccuSolver para melhorar a percepção de oclusão e a generalização em ambientes dinâmicos.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-12🤖 cs.AI

LexiSafe: Offline Safe Reinforcement Learning with Lexicographic Safety-Reward Hierarchy

O artigo apresenta o LexiSafe, um framework de aprendizado por reforço offline seguro que utiliza uma hierarquia lexicográfica para priorizar a segurança sobre a recompensa, oferecendo garantias teóricas e desempenho superior em sistemas ciber-físicos críticos.

Hsin-Jung Yang, Zhanhong Jiang, Prajwal Koirala, Qisai Liu, Cody Fleming, Soumik Sarkar2026-03-12⚡ eess

← Anterior Próximo →