cs.LG artigos | Gist.Science

VSPrefill: Vertical-Slash Sparse Attention with Lightweight Indexing for Long-Context Prefilling

O VSPrefill é um mecanismo de atenção esparsa com treinamento leve que explora padrões estruturais verticais e diagonais para reduzir a complexidade do pré-preenchimento de contexto longo para linear, alcançando um aceleramento médio de 4,95x em 128k tokens com apenas 1,65% de perda de precisão em modelos como Qwen3 e LLaMA-3.1.

Chen Guanzhong2026-03-06💻 cs

MAD-SmaAt-GNet: A Multimodal Advection-Guided Neural Network for Precipitation Nowcasting

Este artigo apresenta o MAD-SmaAt-GNet, uma rede neural multimodal que aprimora a previsão de precipitação de curto prazo ao combinar a arquitetura leve SmaAt-UNet com um codificador para múltiplas variáveis meteorológicas e um componente de advecção baseado em física, resultando em uma redução de 8,9% no erro quadrático médio em comparação com o modelo de base.

Samuel van Wonderen, Siamak Mehrkanoon2026-03-06💻 cs

Understanding the Dynamics of Demonstration Conflict in In-Context Learning

Este estudo revela que os modelos de linguagem exibem uma estrutura computacional de duas fases ao lidar com exemplos conflitantes no aprendizado em contexto, onde cabeças de atenção específicas em camadas iniciais e tardias amplificam a vulnerabilidade a regras corrompidas, e a ablação direcionada dessas cabeças consegue melhorar significativamente o desempenho.

Difan Jiao, Di Wang, Lijie Hu2026-03-06💻 cs

Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation

O artigo apresenta o framework Act-Observe-Rewrite (AOR), no qual um agente de linguagem multimodal melhora políticas de manipulação robótica sintetizando e reescrevendo código executável entre tentativas com base em observações visuais e falhas estruturadas, alcançando alto desempenho em tarefas sem necessidade de demonstrações, engenharia de recompensas ou atualizações de gradiente.

Vaishak Kumar2026-03-06💻 cs

Towards Explainable Deep Learning for Ship Trajectory Prediction in Inland Waterways

Este estudo apresenta um modelo de previsão de trajetória de navios em vias navegáveis interiores baseado em LSTM e atenção, que, embora atinja uma precisão comparável a trabalhos similares, revela através de sua arquitetura interpretável que as melhorias de desempenho não são inteiramente impulsionadas por relações causais com os navios vizinhos, destacando a importância da explicabilidade para garantir a confiança nesses sistemas.

Tom Legel, Dirk Söffker, Roland Schätzle + 1 more2026-03-06💻 cs

Dictionary Based Pattern Entropy for Causal Direction Discovery

O artigo propõe o framework de Entropia de Padrão Baseada em Dicionário (DPE), que integra a Teoria da Informação de Shannon e a Teoria da Informação Algorítmica para inferir a direção causal e os subpadrões específicos em sequências simbólicas, demonstrando desempenho robusto e competitivo em diversos sistemas sintéticos e dados biológicos.

Harikrishnan N B, Shubham Bhilare, Aditi Kathpalia + 1 more2026-03-06🔢 math

Activity Recognition from Smart Insole Sensor Data Using a Circular Dilated CNN

O artigo apresenta um sistema de reconhecimento de atividades baseado em uma Rede Neural Convolucional Circular Dilatada (CDCNN) que processa dados multimodais de palmilhas inteligentes, alcançando 86,42% de precisão na classificação de quatro atividades e demonstrando viabilidade para implantação em sistemas embarcados.

Yanhua Zhao2026-03-06💻 cs

Standing on the Shoulders of Giants: Rethinking EEG Foundation Model Pretraining via Multi-Teacher Distillation

Este trabalho propõe o framework MTDP, que utiliza a destilação multi-professor de modelos fundacionais de visão e séries temporais para pré-treinar modelos fundacionais de EEG com apenas 25% dos dados, superando os métodos de auto-supervisão tradicionais em diversas tarefas downstream.

Chenqi Li, Yu Liu, Shuo Zhang + 2 more2026-03-06💻 cs

Bayesian Modeling of Collatz Stopping Times: A Probabilistic Machine Learning Perspective

Este artigo analisa os tempos de parada da conjectura de Collatz para $n \le 10^7$ através de uma perspectiva de aprendizado de máquina probabilístico, demonstrando que um modelo hierárquico bayesiano de regressão Negativa Binomial supera aproximações geradoras baseadas em decomposição de blocos ímpares, enquanto evidencia que a estrutura modular de baixa ordem é um fator crucial para a heterogeneidade observada nos dados.

Nicolò Bonacorsi, Matteo Bordoni2026-03-06🔢 math

AbAffinity: A Large Language Model for Predicting Antibody Binding Affinity against SARS-CoV-2

Este estudo apresenta o Ab-Affinity, um novo modelo de linguagem grande capaz de prever com precisão a afinidade de ligação de anticorpos contra o peptídeo alvo da proteína spike do SARS-CoV-2, aproveitando avanços em inteligência artificial e o aumento de dados experimentais para auxiliar no design de anticorpos neutralizantes.

Faisal Bin Ashraf, Animesh Ray, Stefano Lonardi2026-03-06💻 cs

Augmenting representations with scientific papers

Este trabalho apresenta um framework de aprendizado contrastivo que alinha espectros de raios X com conhecimento extraído de artigos científicos, criando representações multimodais compartilhadas que melhoram a estimativa de variáveis físicas e facilitam a identificação de fontes astrofísicas raras ou pouco compreendidas.

Nicolò Oreste Pinciroli Vago, Rocco Di Tella, Carolina Cuesta-Lázaro + 3 more2026-03-06✓ Author reviewed ⓘ🔭 astro-ph

Projected Hessian Learning: Fast Curvature Supervision for Accurate Machine-Learning Interatomic Potentials

O artigo apresenta o Aprendizado de Hessiano Projetado (PHL), um método escalável que treina potenciais interatômicos de aprendizado de máquina utilizando produtos vetor-Hessiano para incorporar informações de curvatura com precisão próxima à do Hessiano completo, mas com custo computacional e de memória significativamente reduzidos.

Austin Rodriguez, Justin S. Smith, Sakib Matin + 3 more2026-03-06🔬 physics

The Volterra signature

O artigo propõe a assinatura de Volterra como uma representação de recursos explícita e matematicamente fundamentada para séries temporais não markovianas, demonstrando suas propriedades de universalidade, invariância à reparametrização temporal e eficiência computacional, o que resulta em melhor desempenho em tarefas de aprendizado dinâmico em comparação com assinaturas de caminho clássicas.

Paul P. Hager, Fabian N. Harang, Luca Pelizzari + 1 more2026-03-06💻 cs

Invariant Causal Routing for Governing Social Norms in Online Market Economies

Este artigo propõe o quadro de governança "Roteamento Causal Invariante" (ICR), que integra raciocínio contrafactual e descoberta causal invariante para identificar regras de política interpretáveis e estáveis que orientam normas sociais emergentes em economias de mercado online, superando as limitações de abordagens baseadas em correlação ao garantir eficácia sob mudanças de distribuição.

Xiangning Yu, Qirui Mi, Xiao Xue + 4 more2026-03-06💻 cs

A Fast Generative Framework for High-dimensional Posterior Sampling: Application to CMB Delensing

Este artigo apresenta um novo framework generativo profundo que realiza amostragem de posterior em dimensões altas de forma dez vezes mais rápida que abordagens baseadas em difusão, demonstrando eficácia e robustez na aplicação de delensing da Radiação Cósmica de Fundo (CMB).

Hadi Sotoudeh, Pablo Lemos, Laurence Perreault-Levasseur2026-03-06🔭 astro-ph

An LLM-Guided Query-Aware Inference System for GNN Models on Large Knowledge Graphs

O artigo apresenta o KG-WISE, um sistema de inferência orientado a consultas que utiliza Grandes Modelos de Linguagem (LLMs) para decompor e carregar dinamicamente componentes específicos de modelos de Redes Neurais em Grafos (GNNs) em grandes Grafos de Conhecimento, alcançando ganhos significativos de velocidade e redução de uso de memória sem comprometer a precisão.

Waleed Afandi, Hussein Abdallah, Ashraf Aboulnaga + 1 more2026-03-06💻 cs

Oracle-efficient Hybrid Learning with Constrained Adversaries

Este artigo apresenta um algoritmo de aprendizado híbrido eficiente em termos de oráculo que alcança otimalidade estatística sob adversários restritos, superando o compromisso anterior entre eficiência computacional e desempenho estatístico e permitindo o cálculo de equilíbrios em jogos de soma zero estocásticos com estruturas de baixa dimensão.

Princewill Okoroafor, Robert Kleinberg, Michael P. Kim2026-03-06💻 cs

Weather-Related Crash Risk Forecasting: A Deep Learning Approach for Heterogenous Spatiotemporal Data

Este estudo apresenta um framework baseado em aprendizado profundo que utiliza um ensemble de modelos ConvLSTM treinados em grades espaciais sobrepostas para prever com maior precisão o risco de acidentes de trânsito relacionados ao clima na Carolina do Norte, superando modelos tradicionais ao capturar dependências espaciais e dinâmicas temporais em dados heterogêneos.

Abimbola Ogungbire, Srinivas Pulugurtha2026-03-06💻 cs

Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling

O artigo apresenta o Latent Particle World Model (LPWM), um modelo de mundo auto-supervisionado e centrado em objetos que descobre autonomamente características visuais a partir de vídeos para modelar dinâmicas estocásticas e auxiliar em tarefas de tomada de decisão.

Tal Daniel, Carl Qi, Dan Haramati + 5 more2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

Este estudo analisa estratégias de fusão e agrupamento em redes neurais convolucionais para classificação de Zonas Climáticas Locais (LCZ) usando dados de sensoriamento remoto multimodais, demonstrando que uma abordagem híbrida combinada com agrupamento de bandas e fusão de rótulos alcança a maior precisão geral (76,6%) e melhora significativamente a detecção de classes sub-representadas no conjunto de dados So2Sat LCZ42.

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

← Anterior Próximo →