cs.LG artigos | Gist.Science

OpenSanctions Pairs: Large-Scale Entity Matching with LLMs

O artigo apresenta o OpenSanctions Pairs, um grande conjunto de dados para correspondência de entidades derivado de sanções internacionais, demonstrando que modelos de linguagem (LLMs) superam significativamente os sistemas baseados em regras existentes, atingindo um desempenho próximo ao limite prático e sugerindo uma mudança de foco para componentes de pipeline como bloqueio e agrupamento.

Chandler Smith, Magnus Sesodia, Friedrich Lindenberg, Christian Schroeder de Witt2026-03-13💬 cs.CL

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Este artigo propõe um esquema de quantificação de incerteza epistêmica estruturalmente consciente para operadores neurais em EDPs, que injeta estocasticidade apenas no módulo de elevação para gerar bandas de incerteza mais confiáveis, precisas e alinhadas com estruturas residuais locais, mantendo a eficiência computacional necessária para aplicações científicas.

Haoze Song, Zhihao Li, Mengyi Deng, Xin Li, Duyi Pan, Zhilu Lai, Wei Wang2026-03-13🤖 cs.LG

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Este artigo propõe uma teoria analítica que conecta os hiperparâmetros de modelos de linguagem pré-treinados à eficiência de throughput do sistema de inferência, permitindo prever configurações ótimas para a técnica de decodificação especulativa antes mesmo do treinamento dos modelos.

Amirhossein Bozorgkhoo, Igor Molybog2026-03-13💬 cs.CL

TinyNav: End-to-End TinyML for Real-Time Autonomous Navigation on Microcontrollers

O artigo apresenta o TinyNav, um sistema TinyML de ponta a ponta que permite a navegação autônoma em tempo real em microcontroladores ESP32, utilizando uma rede neural convolucional quantizada e compacta para processar dados de profundidade e prever comandos de direção com baixa latência.

Pooria Roy, Nourhan Jadallah. Tomer Lapid, Shahzaib Ahmad, Armita Afroushe, Mete Bayrak2026-03-13🤖 cs.LG

Interventional Time Series Priors for Causal Foundation Models

O artigo apresenta o CausalTimePrior, um framework principiado para gerar modelos causais temporais sintéticos com dados observacionais e intervencionais, permitindo treinar redes pré-ajustadas a dados (PFNs) para inferência causal em séries temporais.

Dennis Thumm, Ying Chen2026-03-13🤖 cs.LG

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

O artigo propõe o FiCSUM, um framework geral que utiliza um vetor dinâmico de diversas metainformações para criar "impressões digitais" de conceitos, permitindo identificar com maior precisão mudanças de conceito em fluxos de dados e superando os métodos atuais em diversos conjuntos de dados reais e sintéticos.

Ben Halstead, Yun Sing Koh, Patricia Riddle, Mykola Pechenizkiy, Albert Bifet, Russel Pears2026-03-13🤖 cs.LG

Graph Tokenization for Bridging Graphs and Transformers

Este trabalho apresenta um framework de tokenização de grafos que combina serialização reversível guiada por estatísticas globais com Byte Pair Encoding (BPE), permitindo que modelos Transformers sejam aplicados diretamente a dados estruturados em grafos e alcançando resultados state-of-the-art em 14 conjuntos de dados de benchmark.

Zeyuan Guo, Enmao Diao, Cheng Yang, Chuan Shi2026-03-13🤖 cs.LG

Task-Conditioned Routing Signatures in Sparse Mixture-of-Experts Transformers

Este artigo demonstra que os mecanismos de roteamento em arquiteturas Sparse Mixture-of-Experts (MoE) exibem uma estrutura sensível à tarefa, onde prompts da mesma categoria geram assinaturas de roteamento altamente similares que permitem a classificação precisa de tarefas, sugerindo que o roteamento é um componente condicional mensurável e não apenas um mecanismo de equilíbrio de carga.

Mynampati Sri Ranganadha Avinash2026-03-13🤖 cs.LG

A Learning-Based Superposition Operator for Non-Renewal Arrival Processes in Queueing Networks

Este artigo propõe um operador de superposição baseado em aprendizado profundo que, ao mapear momentos e descritores de autocorrelação de fluxos de entrada não renováveis, permite uma avaliação escalável e precisa de redes de filas com convergência de tráfego, superando as limitações das aproximações clássicas ao preservar informações de variabilidade e dependência de ordem superior.

Eliran Sherzer2026-03-13🤖 cs.LG

Group Resonance Network: Learnable Prototypes and Multi-Subject Resonance for EEG Emotion Recognition

O artigo propõe a Rede de Ressonância de Grupo (GRN), um modelo que integra dinâmicas individuais de EEG com protótipos aprendíveis e sincronia inter-sujeitos para superar a variabilidade entre indivíduos e melhorar o reconhecimento de emoções em cenários cruzados.

Renwei Meng2026-03-13🤖 cs.LG

High-resolution weather-guided surrogate modeling for data-efficient cross-location building energy prediction

Este estudo apresenta um modelo substituto de alta resolução, orientado por dados meteorológicos semanais, que supera as limitações de generalização das abordagens anteriores ao capturar padrões recorrentes de demanda energética, permitindo prever com precisão o consumo de energia em edifícios de diferentes localizações sem a necessidade de simulações extensas em múltiplos sites.

Piragash Manmatharasan, Girma Bitsuamlak, Katarina Grolinger2026-03-13🤖 cs.LG

Co-Diffusion: An Affinity-Aware Two-Stage Latent Diffusion Framework for Generalizable Drug-Target Affinity Prediction

O artigo apresenta o Co-Diffusion, um novo framework de duas etapas baseado em difusão latente que supera as limitações de generalização em regimes de frio extremo ao alinhar embeddings de fármacos e alvos em um manifold orientado pela afinidade e aplicar difusão latente específica de modalidade como regularizador estocástico, resultando em desempenho superior na previsão de afinidade fármaco-alvo, especialmente para estruturas moleculares e famílias proteicas não vistas.

Yining Qian, Pengjie Wang, Yixiao Li, An-Yang Lu, Cheng Tan, Shuang Li, Lijun Liu2026-03-13📊 stat

Efficient Approximation to Analytic and $L^p$ functions by Height-Augmented ReLU Networks

Este trabalho demonstra que uma arquitetura de rede neural tridimensional baseada em funções ReLU permite aproximações exponencialmente mais eficientes e de alta ordem para funções analíticas e $L^p$ , superando limitações teóricas anteriores e oferecendo um caminho para redes mais parcimoniosas em parâmetros.

ZeYu Li, FengLei Fan, TieYong Zeng2026-03-13📊 stat

Beyond Barren Plateaus: A Scalable Quantum Convolutional Architecture for High-Fidelity Image Classification

Este trabalho propõe uma nova arquitetura de Rede Neural Convolucional Quântica (QCNN) que mitiga o problema de platôs áridos e supera os modelos clássicos, alcançando 98,7% de precisão na classificação de imagens do MNIST com maior eficiência de parâmetros.

Radhakrishnan Delhibabu2026-03-13🤖 cs.LG

Higher-Order Modular Attention: Fusing Pairwise and Triadic Interactions for Protein Sequences

O artigo apresenta o HOMA, um novo operador de atenção unificado que combina interações pares e triádicas para melhorar a previsão de fenótipos em sequências de proteínas, superando os modelos de atenção padrão em diversas tarefas de benchmark.

Shirin Amiraslani, Xin Gao2026-03-13🤖 cs.LG

Conformal e-prediction in the presence of confounding

Este artigo estende a predição e-conformal para lidar com situações de confusão observada entre o objeto aleatório e seu rótulo, considerando tanto cenários de dados independentes e identicamente distribuídos (IID) quanto casos que permitem dependência entre as observações.

Vladimir Vovk, Ruodu Wang2026-03-13📊 stat

Scaling Reasoning Efficiently via Relaxed On-Policy Distillation

O artigo apresenta o REOPOLD, um framework de destilação on-policy relaxada que estabiliza o treinamento ao interpretar a relação professor-aluno como recompensa de otimização de política, resultando em maior eficiência de amostragem e desempenho superior em tarefas de raciocínio matemático, visual e de agentes em comparação com abordagens anteriores.

Jongwoo Ko, Sara Abdali, Young Jin Kim, Tianyi Chen, Pashmina Cameron2026-03-13🤖 cs.LG

Deep regression learning from dependent observations with minimum error entropy principle

Este artigo propõe e analisa estimadores de redes neurais profundas baseados no princípio de entropia mínima do erro para regressão não paramétrica com observações dependentes, demonstrando que alcançam a taxa de convergência minimax ótima sob condições de mistura forte.

William Kengne, Modou Wade2026-03-13📊 stat

H2LooP Spark Preview: Continual Pretraining of Large Language Models for Low-Level Embedded Systems Code

O artigo apresenta o H2LooP Spark Preview, um pipeline de pré-treinamento contínuo que adapta o modelo de linguagem aberto OLMo-3-7B para o domínio de sistemas embarcados de baixo nível, resultando em um modelo de 7B que supera sistemas fechados de ponta em tarefas específicas de código ao ser treinado com 23,5 bilhões de tokens de dados especializados.

Amit Singh, Vedant Nipane, Pulkit Agrawal, Jatin Kishnani2026-03-13🤖 cs.LG

Procedural Fairness via Group Counterfactual Explanation

Este artigo apresenta o GCIG, um framework de regularização que promove a justiça processual em modelos de aprendizado de máquina ao garantir a estabilidade das explicações entre diferentes grupos protegidos, reduzindo disparidades explicativas sem comprometer o desempenho preditivo.

Gideon Popoola, John Sheppard2026-03-13🤖 cs.LG

← Anterior Próximo →

cs.LG