cs.LG artigos | Gist.Science

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

O artigo propõe o mecanismo MiTA Attention, uma abordagem eficiente que unifica métodos de atenção existentes e reduz o custo computacional em sequências longas comprimindo a matriz de pesos rápidos e utilizando uma estratégia de roteamento baseada nas top-k ativações de consultas âncora.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

O artigo apresenta o VIP, uma estratégia de alocação de rolagens adaptativa que utiliza um modelo de processo gaussiano para prever probabilidades de sucesso e otimizar a distribuição do orçamento computacional, minimizando a variância do gradiente e melhorando a eficiência de amostragem no aprendizado por reforço com recompensas verificáveis.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

Position: Beyond Model-Centric Prediction -- Agentic Time Series Forecasting

Este artigo propõe a previsão de séries temporais agêntica (ATSF), que redefine o paradigma tradicional centrado em modelos como um processo dinâmico e iterativo composto por percepção, planejamento, ação, reflexão e memória, permitindo adaptação contínua e interação com ferramentas para lidar com cenários complexos e multi-turno.

Mingyue Cheng, Xiaoyu Tao, Qi Liu + 2 more2026-03-06💻 cs

On the Non-Identifiability of Steering Vectors in Large Language Models

Este artigo demonstra que os vetores de direção usados para controlar o comportamento de grandes modelos de linguagem são fundamentalmente não identificáveis, pois perturbações ortogonais produzem efeitos equivalentes, revelando assim limites intrínsecos na interpretabilidade dessas intervenções.

Sohan Venkatesh, Ashish Mahendran Kurapath2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

O artigo apresenta o LatentChem, uma interface de raciocínio latente que desacopla o cálculo químico da geração textual, permitindo que modelos realizem inferências complexas diretamente no espaço contínuo, o que resulta em uma precisão superior e um aumento de 10,84 vezes na velocidade de inferência em comparação com métodos tradicionais de Cadeia de Pensamento explícita.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

Beyond the Unit Hypersphere: Embedding Magnitude in Contrastive Learning

O artigo demonstra que, ao contrário da similaridade de cosseno tradicional que trata a magnitude dos embeddings como ruído, aprender e controlar seletivamente a magnitude de consultas e documentos melhora significativamente a recuperação e a geração aumentada por recuperação (RAG), especialmente em cenários de generalização fora de domínio, ao identificar que normalizar apenas um lado é mais eficaz e que a magnitude da consulta modula os gradientes enquanto a do documento escala as pontuações de inferência.

Xincan Feng, Taro Watanabe2026-03-06💻 cs

Supervised Metric Regularization Through Alternating Optimization for Multi-Regime Physics-Informed Neural Networks

Este artigo propõe o TAPINN, uma arquitetura de Redes Neurais Informadas pela Física que utiliza Regularização Métrica Supervisionada e Otimização Alternada para mitigar o viés espectral e o colapso de modos em sistemas dinâmicos com transições de regime abruptas, alcançando uma convergência estável e maior precisão física com menos parâmetros do que os métodos existentes.

Enzo Nicolas Spotorno, Josafat Ribeiro Leal, Antonio Augusto Frohlich2026-03-06🔬 physics

Empirical Stability Analysis of Kolmogorov-Arnold Networks in Hard-Constrained Recurrent Physics-Informed Discovery

Este estudo empírico demonstra que, embora as Redes Kolmogorov-Arnold (KANs) sejam competitivas em resíduos polinomiais univariados, elas apresentam fragilidade hiperparamétrica e instabilidade em configurações profundas, falhando consistentemente na recuperação de termos multiplicativos em sistemas oscilatórios e sendo superadas por MLPs padrão.

Enzo Nicolas Spotorno, Josafat Leal Filho, Antonio Augusto Medeiros Frohlich2026-03-06🔬 physics

Learn from Your Mistakes: Self-Correcting Masked Diffusion Models

O artigo propõe o ProSeCo, um framework que aprimora os Modelos de Difusão Mascarada (MDMs) ao permitir a correção iterativa de tokens já gerados durante a amostragem, resultando em uma melhor qualidade de amostra e eficiência computacional.

Yair Schiff, Omer Belhasin, Roy Uziel + 5 more2026-03-06💻 cs

QTabGAN: A Hybrid Quantum-Classical GAN for Tabular Data Synthesis

O artigo apresenta o QTabGAN, um modelo híbrido quântico-clássico que utiliza circuitos quânticos para aprender distribuições complexas e redes neurais clássicas para mapear características, demonstrando melhorias de até 54,07% na síntese de dados tabulares em comparação com modelos de última geração.

Subhangi Kumari, Rakesh Achutha, Vignesh Sivaraman2026-03-06⚛️ quant-ph

Out-of-Support Generalisation via Weight-Space Sequence Modelling

O artigo apresenta o framework WeightCaster, que reformula o problema de generalização fora do suporte (OoS) como uma tarefa de modelagem de sequência no espaço de pesos, permitindo previsões plausíveis, interpretáveis e conscientes da incerteza sem viés indutivo explícito, superando ou competindo com o estado da arte em cenários de segurança crítica.

Roussel Desmond Nzoyem2026-03-06💻 cs

Neural Network-Based Parameter Estimation of a Labour Market Agent-Based Model

Este estudo demonstra que um quadro de inferência baseado em simulação que utiliza redes neurais para estimar parâmetros de um modelo baseado em agentes do mercado de trabalho é mais eficiente e preciso do que os métodos bayesianos tradicionais, recuperando com sucesso os parâmetros originais em diferentes escalas de dados.

M Lopes Alves, Joel Dyer, Doyne Farmer + 2 more2026-03-06💻 cs

Optimal training-conditional regret for online conformal prediction

Este artigo propõe algoritmos de conformalização online que utilizam detecção de mudanças de distribuição para alcançar arrependimento cumulativo condicional ao treinamento minimax-ótimo em fluxos de dados não estacionários, tanto para scores pré-treinados quanto para modelos aprendidos online.

Jiadong Liang, Zhimei Ren, Yuxin Chen2026-03-06🔢 math

SubQuad: Near-Quadratic-Free Structure Inference with Distribution-Balanced Objectives in Adaptive Receptor framework

O SubQuad é um pipeline integrado que supera os gargalos de custo computacional e desequilíbrio de dados na análise de repertórios imunes, combinando filtragem eficiente, fusão multimodal e objetivos equitativos para permitir a mineração escalável e justa de repertórios virais e tumorais.

Rong Fu, Zijian Zhang, Kun Liu + 3 more2026-03-06💻 cs

Curriculum Learning for Efficient Chain-of-Thought Distillation via Structure-Aware Masking and GRPO

Este artigo apresenta um framework de aprendizado curricular em três etapas que utiliza mascaramento estrutural e otimização de política relativa em grupo (GRPO) para distilar raciocínio de cadeia de pensamento de modelos grandes em modelos menores, resultando em ganhos significativos de precisão e redução no comprimento das respostas.

Bowen Yu, Maolin Wang, Sheng Zhang + 7 more2026-03-06💻 cs

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

O CityGuard é um framework baseado em transformadores que utiliza aprendizado de métricas adaptativo, atenção condicional espacial e mapas de incorporação com privacidade diferencial para permitir a busca de identidade privada e resiliente a vieses em câmeras urbanas distribuídas, garantindo precisão na reidentificação sem compartilhar imagens brutas.

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

O artigo apresenta o RA-QA, um novo sistema de benchmarking que harmoniza dados públicos em 9 milhões de pares de perguntas e respostas multimodais para avaliar a robustez de modelos de IA na análise de áudio respiratório sob condições de heterogeneidade do mundo real.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

cc-Shapley: Measuring Multivariate Feature Importance Needs Causal Context

O artigo propõe o método cc-Shapley, uma modificação intervencionista dos valores de Shapley que incorpora conhecimento causal para corrigir atribuições de importância de características enganosas causadas por viés de colisor e supressão, garantindo assim uma análise mais precisa e confiável em modelos de inteligência artificial explicável.

Jörg Martin, Stefan Haufe2026-03-06💻 cs

On Imbalanced Regression with Hoeffding Trees

Este artigo estende a estimação por densidade de kernel (KDE) para configurações de streaming e integra o encolhimento hierárquico (HS) em árvores de decisão incrementais para regressão desbalanceada, demonstrando empiricamente que a KDE melhora consistentemente o desempenho inicial, enquanto o HS oferece ganhos limitados.

Pantia-Marina Alchirch, Dimitrios I. Diochnos2026-03-06💻 cs

Zatom-1: A Multimodal Flow Foundation Model for 3D Molecules and Materials

O artigo apresenta o Zatom-1, o primeiro modelo fundamental de código aberto e ponta a ponta que unifica a aprendizagem generativa e preditiva de moléculas e materiais 3D, utilizando um objetivo de correspondência de fluxo multimodal para superar as limitações de abordagens anteriores, acelerar a inferência e permitir transferência positiva de conhecimento entre domínios químicos.

Alex Morehead, Miruna Cretu, Antonia Panescu + 14 more2026-03-06🔬 cond-mat.mtrl-sci

← Anterior Próximo →