cs.LG artigos | Gist.Science

Marginals Before Conditionals

O artigo demonstra que redes neurais aprendem primeiro a distribuição marginal de uma tarefa ambígua, estabilizando-se em um platô de erro determinado pelo nível de ambiguidade, antes de sofrer uma transição abrupta para a solução condicional completa, um processo governado pelo ruído do gradiente e pela formação antecipada de um mecanismo de roteamento seletor.

Mihir Sahasrabudhe2026-03-12🤖 cs.LG

Stochastic Port-Hamiltonian Neural Networks: Universal Approximation with Passivity Guarantees

O artigo apresenta as Redes Neurais Port-Hamiltonianas Estocásticas (SPH-NNs), que garantem passividade e demonstram capacidade de aproximação universal para sistemas dinâmicos estocásticos, superando redes neurais tradicionais na preservação de propriedades energéticas e na precisão de previsões de longo prazo.

Luca Di Persio, Matthias Ehrhardt, Youness Outaleb2026-03-12🤖 cs.LG

Large Spikes in Stochastic Gradient Descent: A Large-Deviations View

O artigo analisa o treinamento de SGD em redes neurais rasas sob a escala NTK, estabelecendo um critério explícito baseado em uma função $G$ que determina a probabilidade de ocorrência de grandes picos de achatamento do NTK durante a fase de catapultas.

Benjamin Gess, Daniel Heydecker2026-03-12🤖 cs.LG

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

O artigo propõe o "Amnesia", um ataque adversarial leve que manipula os estados internos de modelos de linguagem grandes (LLMs) para contornar mecanismos de segurança existentes e induzir a geração de conteúdo prejudicial sem a necessidade de ajuste fino ou treinamento adicional.

Ali Raza, Gurang Gupta, Nikolay Matyunin, Jibesh Patra2026-03-12🤖 cs.AI

Mitigating Frequency Learning Bias in Quantum Models via Multi-Stage Residual Learning

Este artigo propõe e valida uma abordagem de aprendizado residual multiestágio no domínio quântico para mitigar o viés de aprendizado de frequência, demonstrando que essa técnica melhora significativamente a capacidade dos modelos de aprender componentes espectrais complexos em comparação com baselines de estágio único.

Ammar Daskin2026-03-12⚛️ quant-ph

Digging Deeper: Learning Multi-Level Concept Hierarchies

O artigo apresenta o Multi-Level Concept Splitting (MLCS) e o Deep-HiCEMs, métodos que superam as limitações de hierarquias rasas ao descobrir hierarquias de conceitos multinível a partir de supervisão de alto nível e permitir intervenções em múltiplos níveis de abstração, mantendo alta precisão e interpretabilidade.

Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik2026-03-12🤖 cs.LG

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

O KernelSkill é um framework multiagente que otimiza kernels de GPU substituindo heurísticas implícitas de modelos de linguagem por habilidades de especialistas baseadas em conhecimento e uma arquitetura de memória dupla, alcançando sucesso de 100% e acelerações significativas em relação ao Torch Eager e a métodos anteriores.

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu2026-03-12🤖 cs.LG

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

O artigo apresenta o ES-dLLM, um framework de aceleração de inferência sem treinamento para modelos de linguagem difusivos (dLLMs) que reduz o custo computacional ao pular tokens em camadas iniciais com base na variação de representações intermediárias e em scores de confiança, alcançando ganhos de velocidade significativos sem comprometer a qualidade da geração.

Zijian Zhu, Fei Ren, Zhanhong Tan, Kaisheng Ma2026-03-12🤖 cs.LG

A Survey of Weight Space Learning: Understanding, Representation, and Generation

Este artigo apresenta a primeira taxonomia unificada de Aprendizado no Espaço de Pesos (WSL), categorizando métodos em compreensão, representação e geração de pesos de redes neurais para habilitar aplicações como recuperação de modelos, aprendizado federado e reconstrução sem dados.

Xiaolong Han, Zehong Wang, Bo Zhao, Binchi Zhang, Jundong Li, Damian Borth, Rose Yu, Haggai Maron, Yanfang Ye, Lu Yin, Ferrante Neri2026-03-12🤖 cs.LG

Equivariant Asynchronous Diffusion: An Adaptive Denoising Schedule for Accelerated Molecular Conformation Generation

O artigo apresenta o Equivariant Asynchronous Diffusion (EAD), um novo modelo de difusão que combina agendamento assíncrono e mecanismos de agendamento dinâmico para superar as limitações dos métodos existentes e alcançar desempenho state-of-the-art na geração de conformações moleculares 3D.

Junyi An, Chao Qu, Yun-Fei Shi, Zhijian Zhou, Fenglei Cao, Yuan Qi2026-03-12🧬 q-bio

Rethinking Adam for Time Series Forecasting: A Simple Heuristic to Improve Optimization under Distribution Shifts

Este artigo apresenta o TS_Adam, uma variante leve do otimizador Adam que remove a correção de viés de segunda ordem para melhorar a adaptabilidade e o desempenho em tarefas de previsão de séries temporais não estacionárias, sem exigir hiperparâmetros adicionais.

Yuze Dong, Jinsong Wu2026-03-12🤖 cs.LG

Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

O artigo apresenta o Code-Space Response Oracles (CSRO), um novo framework que substitui os oráculos de aprendizado por reforço tradicionais por Grandes Modelos de Linguagem (LLMs) para gerar políticas multiagente interpretáveis na forma de código, permitindo a descoberta de estratégias complexas e explicáveis com desempenho competitivo.

Daniel Hennes, Zun Li, John Schultz, Marc Lanctot2026-03-12🤖 cs.AI

Denoising the US Census: Succinct Block Hierarchical Regression

Este trabalho apresenta o BlueDown, um novo método de pós-processamento que utiliza regressão hierárquica de mínimos quadrados generalizados e operações algébricas concisas para gerar estimativas demográficas mais precisas e consistentes do que o método TopDown atual, mantendo as mesmas garantias de privacidade e restrições estruturais do Sistema de Evitação de Divulgação do Censo dos EUA.

Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Adam Sealfon2026-03-12🤖 cs.LG

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

O artigo propõe uma nova abordagem de "esparsidade suave" baseada em um proxy de bit significativo mais alto (MSB) integrada como instrução RISC-V personalizada, que reduz drasticamente as operações de multiplicação e acumulação (MACs) e o consumo de energia em CNNs para inferência em dispositivos de borda, superando significativamente os métodos tradicionais de esparsidade rígida sem perda de precisão.

Vishal Shashidhar, Anupam Kumari, Roy P Paily2026-03-12🤖 cs.LG

CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

O artigo apresenta o CLIPO, um método que generaliza o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) ao incorporar aprendizado contrastivo na otimização de políticas, permitindo que modelos de linguagem capturem a estrutura invariante de raciocínios corretos e, assim, mitiguem inconsistências e alucinações em etapas intermediárias, resultando em melhor generalização e robustez.

Sijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang2026-03-12🤖 cs.LG

Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias

Este artigo demonstra que o fenômeno "Lost in the Middle" em modelos de linguagem é uma propriedade geométrica intrínseca dos decodificadores causais com conexões residuais, presente já na inicialização do modelo antes de qualquer treinamento ou uso de codificações posicionais, criando uma zona de influência negligenciável no meio do contexto devido à divergência logarítmica no início e a um ancoragem isolada no final.

Borun D Chowdhury2026-03-12🤖 cs.LG

Unbalanced Optimal Transport Dictionary Learning for Unsupervised Hyperspectral Image Clustering

Este artigo propõe um método de aprendizado de dicionário para agrupamento não supervisionado de imagens hiperespectrais que utiliza barycentros de Wasserstein desbalanceados para aprender uma representação de baixa dimensão, superando as limitações de métodos anteriores ao evitar o desbalanceamento dos perfis espectrais e aumentar a robustez a ruídos e outliers.

Joshua Lentz, Nicholas Karris, Alex Cloninger, James M. Murphy2026-03-12📊 stat

A neural operator for predicting vibration frequency response curves from limited data

Este artigo apresenta um operador neural integrado a um esquema numérico implícito que, ao aprender as dinâmicas do espaço de estado a partir de dados limitados, prevê com 99,87% de precisão as curvas de resposta à frequência de vibração sem a necessidade de funções de perda regularizadoras baseadas em princípios físicos.

D. Bluedorn, A. Badawy, B. E. Saunders, D. Roettgen, A. Abdelkefi2026-03-12🤖 cs.LG

Mashup Learning: Faster Finetuning by Remixing Past Checkpoints

O artigo propõe o "Mashup Learning", um método que acelera o ajuste fino de modelos de linguagem ao identificar e fundir checkpoints históricos relevantes, resultando em maior precisão e redução significativa no tempo de treinamento em comparação com o treinamento a partir do zero.

Sofia Maria Lo Cicero Vaina, Artem Chumachenko, Max Ryabinin2026-03-12🤖 cs.LG

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

O artigo apresenta o ReMix, um novo método de roteamento baseado em aprendizado por reforço para Mixture-of-LoRAs em modelos de linguagem grandes, que utiliza pesos de roteamento não aprendíveis e um estimador de gradiente RLOO para garantir que todos os LoRAs ativos sejam igualmente eficazes, superando os métodos atuais de ajuste fino eficiente em parâmetros.

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong2026-03-12🤖 cs.LG

← Anterior Próximo →