cs.LG artigos | Gist.Science

On the Non-Identifiability of Steering Vectors in Large Language Models

Este artigo demonstra que os vetores de direção usados para controlar o comportamento de grandes modelos de linguagem são fundamentalmente não identificáveis, pois perturbações ortogonais produzem efeitos equivalentes, revelando assim limites intrínsecos na interpretabilidade dessas intervenções.

Sohan Venkatesh, Ashish Mahendran Kurapath2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

O artigo apresenta o LatentChem, uma interface de raciocínio latente que desacopla o cálculo químico da geração textual, permitindo que modelos realizem inferências complexas diretamente no espaço contínuo, o que resulta em uma precisão superior e um aumento de 10,84 vezes na velocidade de inferência em comparação com métodos tradicionais de Cadeia de Pensamento explícita.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

Beyond the Unit Hypersphere: Embedding Magnitude in Contrastive Learning

O artigo demonstra que, ao contrário da similaridade de cosseno tradicional que trata a magnitude dos embeddings como ruído, aprender e controlar seletivamente a magnitude de consultas e documentos melhora significativamente a recuperação e a geração aumentada por recuperação (RAG), especialmente em cenários de generalização fora de domínio, ao identificar que normalizar apenas um lado é mais eficaz e que a magnitude da consulta modula os gradientes enquanto a do documento escala as pontuações de inferência.

Xincan Feng, Taro Watanabe2026-03-06💻 cs

Supervised Metric Regularization Through Alternating Optimization for Multi-Regime Physics-Informed Neural Networks

Este artigo propõe o TAPINN, uma arquitetura de Redes Neurais Informadas pela Física que utiliza Regularização Métrica Supervisionada e Otimização Alternada para mitigar o viés espectral e o colapso de modos em sistemas dinâmicos com transições de regime abruptas, alcançando uma convergência estável e maior precisão física com menos parâmetros do que os métodos existentes.

Enzo Nicolas Spotorno, Josafat Ribeiro Leal, Antonio Augusto Frohlich2026-03-06🔬 physics

Empirical Stability Analysis of Kolmogorov-Arnold Networks in Hard-Constrained Recurrent Physics-Informed Discovery

Este estudo empírico demonstra que, embora as Redes Kolmogorov-Arnold (KANs) sejam competitivas em resíduos polinomiais univariados, elas apresentam fragilidade hiperparamétrica e instabilidade em configurações profundas, falhando consistentemente na recuperação de termos multiplicativos em sistemas oscilatórios e sendo superadas por MLPs padrão.

Enzo Nicolas Spotorno, Josafat Leal Filho, Antonio Augusto Medeiros Frohlich2026-03-06🔬 physics

Learn from Your Mistakes: Self-Correcting Masked Diffusion Models

O artigo propõe o ProSeCo, um framework que aprimora os Modelos de Difusão Mascarada (MDMs) ao permitir a correção iterativa de tokens já gerados durante a amostragem, resultando em uma melhor qualidade de amostra e eficiência computacional.

Yair Schiff, Omer Belhasin, Roy Uziel + 5 more2026-03-06💻 cs

QTabGAN: A Hybrid Quantum-Classical GAN for Tabular Data Synthesis

O artigo apresenta o QTabGAN, um modelo híbrido quântico-clássico que utiliza circuitos quânticos para aprender distribuições complexas e redes neurais clássicas para mapear características, demonstrando melhorias de até 54,07% na síntese de dados tabulares em comparação com modelos de última geração.

Subhangi Kumari, Rakesh Achutha, Vignesh Sivaraman2026-03-06⚛️ quant-ph

Out-of-Support Generalisation via Weight-Space Sequence Modelling

O artigo apresenta o framework WeightCaster, que reformula o problema de generalização fora do suporte (OoS) como uma tarefa de modelagem de sequência no espaço de pesos, permitindo previsões plausíveis, interpretáveis e conscientes da incerteza sem viés indutivo explícito, superando ou competindo com o estado da arte em cenários de segurança crítica.

Roussel Desmond Nzoyem2026-03-06💻 cs

Neural Network-Based Parameter Estimation of a Labour Market Agent-Based Model

Este estudo demonstra que um quadro de inferência baseado em simulação que utiliza redes neurais para estimar parâmetros de um modelo baseado em agentes do mercado de trabalho é mais eficiente e preciso do que os métodos bayesianos tradicionais, recuperando com sucesso os parâmetros originais em diferentes escalas de dados.

M Lopes Alves, Joel Dyer, Doyne Farmer + 2 more2026-03-06💻 cs

Optimal training-conditional regret for online conformal prediction

Este artigo propõe algoritmos de conformalização online que utilizam detecção de mudanças de distribuição para alcançar arrependimento cumulativo condicional ao treinamento minimax-ótimo em fluxos de dados não estacionários, tanto para scores pré-treinados quanto para modelos aprendidos online.

Jiadong Liang, Zhimei Ren, Yuxin Chen2026-03-06🔢 math

SubQuad: Near-Quadratic-Free Structure Inference with Distribution-Balanced Objectives in Adaptive Receptor framework

O SubQuad é um pipeline integrado que supera os gargalos de custo computacional e desequilíbrio de dados na análise de repertórios imunes, combinando filtragem eficiente, fusão multimodal e objetivos equitativos para permitir a mineração escalável e justa de repertórios virais e tumorais.

Rong Fu, Zijian Zhang, Kun Liu + 3 more2026-03-06💻 cs

Curriculum Learning for Efficient Chain-of-Thought Distillation via Structure-Aware Masking and GRPO

Este artigo apresenta um framework de aprendizado curricular em três etapas que utiliza mascaramento estrutural e otimização de política relativa em grupo (GRPO) para distilar raciocínio de cadeia de pensamento de modelos grandes em modelos menores, resultando em ganhos significativos de precisão e redução no comprimento das respostas.

Bowen Yu, Maolin Wang, Sheng Zhang + 7 more2026-03-06💻 cs

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

O CityGuard é um framework baseado em transformadores que utiliza aprendizado de métricas adaptativo, atenção condicional espacial e mapas de incorporação com privacidade diferencial para permitir a busca de identidade privada e resiliente a vieses em câmeras urbanas distribuídas, garantindo precisão na reidentificação sem compartilhar imagens brutas.

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

O artigo apresenta o RA-QA, um novo sistema de benchmarking que harmoniza dados públicos em 9 milhões de pares de perguntas e respostas multimodais para avaliar a robustez de modelos de IA na análise de áudio respiratório sob condições de heterogeneidade do mundo real.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

cc-Shapley: Measuring Multivariate Feature Importance Needs Causal Context

O artigo propõe o método cc-Shapley, uma modificação intervencionista dos valores de Shapley que incorpora conhecimento causal para corrigir atribuições de importância de características enganosas causadas por viés de colisor e supressão, garantindo assim uma análise mais precisa e confiável em modelos de inteligência artificial explicável.

Jörg Martin, Stefan Haufe2026-03-06💻 cs

On Imbalanced Regression with Hoeffding Trees

Este artigo estende a estimação por densidade de kernel (KDE) para configurações de streaming e integra o encolhimento hierárquico (HS) em árvores de decisão incrementais para regressão desbalanceada, demonstrando empiricamente que a KDE melhora consistentemente o desempenho inicial, enquanto o HS oferece ganhos limitados.

Pantia-Marina Alchirch, Dimitrios I. Diochnos2026-03-06💻 cs

Zatom-1: A Multimodal Flow Foundation Model for 3D Molecules and Materials

O artigo apresenta o Zatom-1, o primeiro modelo fundamental de código aberto e ponta a ponta que unifica a aprendizagem generativa e preditiva de moléculas e materiais 3D, utilizando um objetivo de correspondência de fluxo multimodal para superar as limitações de abordagens anteriores, acelerar a inferência e permitir transferência positiva de conhecimento entre domínios químicos.

Alex Morehead, Miruna Cretu, Antonia Panescu + 14 more2026-03-06🔬 cond-mat.mtrl-sci

Regularized Online RLHF with Generalized Bilinear Preferences

Este artigo propõe um método de RLHF online regularizado com preferências generalizadas bilineares que, ao utilizar matrizes de baixo posto e antissimétricas, garante limites de arrependimento estatisticamente eficientes e livres de exponenciais em dimensões altas, superando as restrições de trabalhos anteriores limitados à regularização por KL reverso.

Junghyun Lee, Minju Hong, Kwang-Sung Jun + 2 more2026-03-06💻 cs

Lap2: Revisiting Laplace DP-SGD for High Dimensions via Majorization Theory

Este trabalho apresenta o Lap2, uma nova abordagem que supera as limitações de dimensionalidade do mecanismo Laplace no DP-SGD ao permitir o uso de clipping L2 através da teoria de majorização, resultando em desempenho superior ao do mecanismo Gaussiano em modelos de alta dimensão sob fortes restrições de privacidade.

Meisam Mohammady, Qin Yang, Nicholas Stout, Ayesha Samreen, Han Wang, Christopher J Quinn, Yuan Hong2026-03-06🔒 cs.CR

Inference-time optimization for experiment-grounded protein ensemble generation

Os autores propõem um novo quadro de otimização no tempo de inferência que, ao otimizar representações latentes e combinar priors estruturais com dados experimentais, gera ensembles de proteínas mais diversificados, fisicamente plausíveis e em melhor acordo com dados experimentais do que os métodos atuais, ao mesmo tempo que expõe vulnerabilidades nas métricas de confiança de modelos como o AlphaFold3.

Advaith Maddipatla, Anar Rzayev, Marco Pegoraro + 5 more2026-03-06💻 cs

← Anterior Próximo →