cs.LG artigos | Gist.Science

AMiD: Knowledge Distillation for LLMs with $α$ -mixture Assistant Distribution

O artigo propõe o AMiD, um novo framework unificado para destilação de conhecimento em LLMs que introduz uma distribuição de assistente baseada em mistura- $\alpha$ e uma família generalizada de divergências, superando as limitações de estabilidade e desempenho dos métodos anteriores ao explorar sistematicamente o espaço de interpolação e otimização.

Donghyeok Shin, Yeongmin Kim, Suhyeon Jo + 2 more2026-03-05🤖 cs.AI

Buzz, Choose, Forget: A Meta-Bandit Framework for Bee-Like Decision Making

Este trabalho apresenta o MAYA, um modelo de aprendizado por imitação baseado em bandits multi-braços que replica as decisões de forrageamento de abelhas considerando sua memória limitada, superando modelos clássicos e permitindo a inferência de trajetórias realistas para aplicações ecológicas.

Emmanuelle Claeys, Elena Kerjean, Jean-Michel Loubes2026-03-05🤖 cs.LG

Key and Value Weights Are Probably All You Need: On the Necessity of the Query, Key, Value weight Triplet in Self-Attention Transformers

Este artigo demonstra teoricamente e valida empiricamente que as matrizes de pesos de Query, Key ou Value em Transformers são redundantes e podem ser substituídas por matrizes identidade, reduzindo os parâmetros em 25% e simplificando a otimização sem comprometer o desempenho.

Marko Karbevski, Antonij Mijoski2026-03-05🤖 cs.AI

Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

Este trabalho demonstra que o viés implícito do Adam com amostras individuais (incremental) em dados linearmente separáveis pode divergir do regime de lote completo, convergindo para classificadores de margem máxima em normas diferentes (como $\ell_2$ em vez de $\ell_\infty$ ) dependendo do conjunto de dados, ao contrário do Signum, que mantém invariância no viés para qualquer tamanho de lote.

Beomhan Baek, Minhak Song, Chulhee Yun2026-03-05🤖 cs.AI

CNFP: Optimizing Cloud-Native Network Function Placement with Diffusion Models on the Cloud Continuum

Este artigo propõe o CNFP, um novo framework baseado em Modelos Probabilísticos de Difusão que otimiza o placement de Funções de Rede Nativas em Nuvem no continuum nuvem-continuum, superando as limitações de escalabilidade e generalização de abordagens clássicas ao gerar soluções viáveis e de alta qualidade com inferência acelerada.

Álvaro Vázquez Rodríguez, Manuel Fernández-Veiga, Carlos Giraldo-Rodríguez2026-03-05🤖 cs.LG

NeuCLIP: Efficient Large-Scale CLIP Training with Neural Normalizer Optimization

O artigo apresenta o NeuCLIP, um novo framework de otimização que reformula a perda de contraste em CLIP utilizando análise convexa e variacional para substituir estimadores de normalização por uma rede neural compacta, permitindo um treinamento mais eficiente e preciso em larga escala sem depender de lotes massivos.

Xiyuan Wei, Chih-Jen Lin, Tianbao Yang2026-03-05🤖 cs.LG

Implicit Bias of the JKO Scheme

O artigo caracteriza o viés implícito do esquema JKO de segunda ordem, demonstrando que ele equivale a um fluxo de gradiente de Wasserstein em uma energia modificada que subtrai um termo proporcional à curvatura métrica da energia original, resultando em um desaceleramento direcional que se manifesta como informações de Fisher ou energia cinética em casos específicos.

Peter Halmos, Boris Hanin2026-03-05🤖 cs.AI

Better audio representations are more brain-like: linking model-brain alignment with performance in downstream auditory tasks

Este estudo demonstra que modelos de áudio auto-supervisionados com alto desempenho em tarefas downstream apresentam representações internas mais alinhadas à atividade cerebral auditiva, sugerindo que a similaridade com o cérebro é um subproduto emergente da aprendizagem para reconstruir dados de áudio naturais.

Leonardo Pepino, Pablo Riera, Juan Kamienkowski + 1 more2026-03-05🤖 cs.LG

EnECG: Efficient Ensemble Learning for Electrocardiogram Multi-task Foundation Model

O artigo apresenta o EnECG, um framework de aprendizado de conjunto baseado em Mixture of Experts que integra modelos fundacionais especializados para tarefas múltiplas de eletrocardiograma, utilizando uma estratégia de adaptação leve (LoRA) para reduzir custos computacionais e de memória enquanto mantém alta performance clínica.

Yuhao Xu, Xiaoda Wang, Jiaying Lu + 6 more2026-03-05🤖 cs.AI

Soft Quality-Diversity Optimization

Este artigo apresenta a "Soft QD", uma nova formulação para otimização qualidade-diversidade que elimina a necessidade de discretização do espaço de comportamentos, permitindo o desenvolvimento do algoritmo diferenciável SQUAD, que supera os métodos atuais em escalabilidade para problemas de alta dimensionalidade.

Saeed Hedayatian, Stefanos Nikolaidis2026-03-05🤖 cs.LG

Weight Space Representation Learning via Neural Field Adaptation

Este trabalho demonstra que a adaptação LoRA multiplicativa em campos neurais, ao restringir o espaço de otimização através de um modelo base pré-treinado, induz uma estrutura semântica e distintiva nos pesos, permitindo representações de alta qualidade que superam métodos existentes na geração de dados 2D e 3D com modelos de difusão latente.

Zhuoqian Yang, Mathieu Salzmann, Sabine Süsstrunk2026-03-05🤖 cs.AI

ceLLMate: Sandboxing Browser AI Agents

O artigo apresenta o ceLLMate, um framework de sandboxing em nível de navegador que mitiga ataques de injeção de prompt em agentes de IA ao impor políticas de segurança na camada HTTP, superando as limitações das abordagens baseadas em UI e introduzindo uma sobrecarga de latência mínima.

Luoxi Meng, Henry Feng, Ilia Shumailov + 1 more2026-03-05🤖 cs.LG

NRR-Core: Non-Resolution Reasoning as a Computational Framework for Contextual Identity and Ambiguity Preservation

O artigo propõe o NRR-Core, um novo quadro computacional que desafia as limitações arquitetônicas atuais da IA ao rejeitar a resolução prematura de ambiguidades, mantendo múltiplas interpretações coexistentes através de princípios como não-identidade e rastreamento de identidade contextual para preservar a flexibilidade interpretativa até a chegada de informações suficientes.

Kei Saito2026-03-05🤖 cs.AI

Learning under Distributional Drift: Prequential Reproducibility as an Intrinsic Statistical Resource

Este artigo introduz um orçamento de deriva intrínseco baseado na distância de Fisher-Rao para caracterizar o aprendizado sob deriva distribucional em ambientes de malha fechada, estabelecendo limites de reprodutibilidade pré-sequencial que demonstram que a taxa de deriva média impõe um limite inferior irreduzível à precisão de previsão.

Sofiya Zaichyk2026-03-05🤖 cs.LG

BumpNet: A Sparse MLP Framework for Learning PDE Solutions

O artigo apresenta o BumpNet, um framework de MLP esparsa baseado em expansão de funções de base treináveis para resolver EDPs e aprender operadores, que, embora superficialmente semelhante às redes RBF, aproveita técnicas modernas de treinamento de MLPs e demonstra ser um aproximador universal em variantes como Bump-PINNs, Bump-EDNN e Bump-DeepONet.

Shao-Ting Chiu, Ioannis G. Kevrekidis, Ulisses Braga-Neto2026-03-05🤖 cs.LG

Online Robust Reinforcement Learning with General Function Approximation

Este trabalho propõe um algoritmo totalmente online de Aprendizado por Reforço Robusto com aproximação de função geral, que aprende políticas robustas apenas através de interação sem dados prévios e estabelece garantias de arrependimento sublinear baseadas na dimensão de Eluder de Bellman robusta.

Debamita Ghosh, George K. Atia, Yue Wang2026-03-05🤖 cs.LG

OASI: Objective-Aware Surrogate Initialization for Multi-Objective Bayesian Optimization in TinyML Keyword Spotting

O artigo propõe o OASI, um método de inicialização de surrogate para otimização bayesiana multiobjetivo que utiliza soluções geradas por simulated annealing para identificar rapidamente modelos de reconhecimento de voz viáveis em microcontroladores, superando métodos tradicionais em eficiência e robustez sob restrições rigorosas de memória.

Soumen Garai, Danilo Pau, Suman Samui2026-03-05🤖 cs.LG

Generalization of RLVR Using Causal Reasoning as a Testbed

Este estudo demonstra que o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) melhora a generalização em tarefas de raciocínio causal, especialmente em consultas complexas, mas apenas quando aplicado a modelos com competência inicial suficiente para otimizar estratégias de marginalização e reduzir erros de cálculo.

Brian Lu, Hongyu Zhao, Shuo Sun + 3 more2026-03-05🤖 cs.AI

Deterministic Coreset for Lp Subspace

Este artigo apresenta o primeiro algoritmo iterativo determinístico para construir um coreset de tamanho ótimo que garante uma incorporação de subespaço $\ell_p$ para qualquer $p \in [1,\infty)$ , eliminando fatores logarítmicos no tamanho do coreset e permitindo a resolução determinística de problemas de regressão $\ell_p$ .

Rachit Chhaya, Anirban Dasgupta, Dan Feldman + 1 more2026-03-05🤖 cs.LG

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

O artigo apresenta o DevRev-Search, um benchmark para recuperação de passagens em suporte técnico construído via pipeline automatizado, e propõe uma estratégia de adaptação que preserva o índice ao fine-tunar apenas o codificador de consultas, permitindo a evolução eficiente de sistemas de busca multi-tenant sem a necessidade de reindexação completa.

Prateek Jain, Shabari S Nair, Ritesh Goru + 4 more2026-03-05🤖 cs.AI

← Anterior Próximo →

cs.LG

AMiD: Knowledge Distillation for LLMs with ααα-mixture Assistant Distribution