Panda: A pretrained forecast model for chaotic dynamics

O artigo apresenta o Panda, um modelo pré-treinado de previsão para sistemas caóticos que, ao ser treinado exclusivamente em dados sintéticos de equações diferenciais ordinárias, demonstra capacidades emergentes de previsão zero-shot em sistemas não vistos, incluindo equações diferenciais parciais e séries temporais do mundo real, preservando tanto a precisão de curto prazo quanto medidas distribucionais.

Jeffrey Lai, Anthony Bao, William GilpinThu, 12 Ma🌀 nlin

The Bayesian Geometry of Transformer Attention

O artigo "The Bayesian Geometry of Transformer Attention" demonstra que, em ambientes controlados chamados "túneis de vento bayesianos", os transformadores realizam inferência bayesiana com alta precisão através de um mecanismo geométrico específico envolvendo o alinhamento progressivo de chaves e consultas e uma variedade de valores de baixa dimensão, estabelecendo uma separação arquitetônica clara em relação a MLPs e oferecendo uma base para conectar sistemas pequenos verificáveis a fenômenos de raciocínio em grandes modelos de linguagem.

Naman Agarwal, Siddhartha R. Dalal, Vishal MisraThu, 12 Ma📊 stat

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Este artigo estabelece que o treinamento por entropia cruzada em transformadores induz uma dinâmica de roteamento baseada em vantagens e atualizações de valores ponderadas por responsabilidade, que atuam como um procedimento EM de duas escalas temporais para esculpir geometrias bayesianas de baixa dimensão que sustentam o raciocínio probabilístico em contexto.

Naman Agarwal, Siddhartha R. Dalal, Vishal MisraThu, 12 Ma📊 stat

Sampling via Stochastic Interpolants by Langevin-based Velocity and Initialization Estimation in Flow ODEs

Este artigo propõe um método inovador para amostragem de distribuições de Boltzmann não normalizadas, utilizando uma sequência de amostradores de Langevin para simular eficientemente um fluxo de equação diferencial ordinária (ODE) derivado de interpolantes estocásticos lineares, oferecendo garantias teóricas de convergência e demonstrando eficácia em distribuições multimodais e tarefas de inferência bayesiana.

Chenguang Duan, Yuling Jiao, Gabriele Steidl, Christian Wald, Jerry Zhijian Yang, Ruizhe ZhangThu, 12 Ma📊 stat

Transfer learning for functional linear regression via control variates

Este artigo propõe e analisa teoricamente estimadores de regressão linear funcional baseados em variáveis de controle para aprendizado por transferência, demonstrando sua equivalência fundamental com o método de offset, sua eficácia em cenários de privacidade de dados e sua capacidade de lidar com erros de suavização decorrentes da observação discreta de preditores funcionais.

Yuping Yang, Zhiyang ZhouThu, 12 Ma📊 stat

Emergence of Distortions in High-Dimensional Guided Diffusion Models

Este artigo formaliza a perda de diversidade em modelos de difusão guiados por classificação (CFG) como uma distorção generativa, demonstrando através de análise de física estatística que esse fenômeno surge em um regime de alta dimensão e propondo um novo cronograma de orientação com janela de orientação negativa para mitigar a redução de variância sem comprometer a separabilidade das classes.

Enrico Ventura, Beatrice Achilli, Luca Ambrogioni, Carlo LucibelloThu, 12 Ma📊 stat

Stability and Robustness via Regularization: Bandit Inference via Regularized Stochastic Mirror Descent

Este artigo estabelece uma teoria unificada de estabilidade para inferência estatística em dados de bandit baseada no Descenso Espelhado Estocástico, demonstrando que algoritmos regularizados como o Regularized-EXP3 garantem simultaneamente intervalos de confiança válidos, ótimo arrependimento e robustez a corrupções.

Budhaditya Halder, Ishan Sengupta, Koustav Chowdhury, Koulik KhamaruThu, 12 Ma📊 stat

SDSR: A Spectral Divide-and-Conquer Approach for Species Tree Reconstruction

O artigo apresenta o SDSR, um método escalável de dividir-e-conquistar baseado em teoria espectral de grafos para reconstrução de árvores filogenéticas, que oferece ganhos significativos de velocidade sem comprometer a precisão ao lidar com grandes conjuntos de dados e discordância genética.

Ortal Reshef (Hebrew University of Jerusalem), Ofer Glassman (Weizmann Institute of Science), Or Zuk (Hebrew University of Jerusalem), Yariv Aizenbud (Tel Aviv University), Boaz Nadler (Weizmann Institute of Science), Ariel Jaffe (Hebrew University of Jerusalem)Thu, 12 Ma🧬 q-bio