cs.LG artigos | Gist.Science

InFusionLayer: a CFA-based ensemble tool to generate new classifiers for learning and modeling

Este artigo apresenta o \texttt{InFusionLayer}, uma ferramenta de ensemble em Python baseada na Análise de Fusão Combinatória (CFA) que integra funções de característica de pontuação-rank (RSC) e diversidade cognitiva (CD) para otimizar problemas de classificação multiclasse em fluxos de trabalho de aprendizado de máquina, como PyTorch, TensorFlow e Scikit-learn.

Eric Roginek, Jingyan Xu, D. Frank. Hsu2026-03-12🤖 cs.LG

Where Do Flow Semantics Reside? A Protocol-Native Tabular Pretraining Paradigm for Encrypted Traffic Classification

O artigo propõe o FlowSem-MAE, um paradigma de pré-treinamento tabular nativo de protocolos que, ao tratar as unidades semânticas de fluxo como prioridades arquitetônicas e corrigir vieses indutivos da modelagem baseada em bytes, supera significativamente os métodos atuais de classificação de tráfego criptografado com apenas metade dos dados rotulados.

Sizhe Huang, Shujie Yang2026-03-12🤖 cs.AI

OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies

O artigo apresenta o OMNIGUIDE, um framework universal que aprimora significativamente o desempenho de políticas robóticas generalistas (VLA) em tarefas complexas ao integrar diversas fontes de orientação como funções de energia diferenciáveis que influenciam a geração de ações no espaço 3D.

Yunzhou Song, Long Le, Yong-Hyun Park, Jie Wang, Junyao Shi, Lingjie Liu, Jiatao Gu, Eric Eaton, Dinesh Jayaraman, Kostas Daniilidis2026-03-12💻 cs

Cluster-Aware Attention-Based Deep Reinforcement Learning for Pickup and Delivery Problems

Este artigo apresenta o CAADRL, um framework de Aprendizado por Reforço Profundo baseado em atenção que explora explicitamente a estrutura de aglomerados dos problemas de coleta e entrega por meio de codificação multiescala e decodificação hierárquica, alcançando desempenho competitivo com tempos de inferência significativamente menores em comparação com métodos colaborativos existentes.

Wentao Wang, Lifeng Han, Guangyu Zou2026-03-12🤖 cs.LG

Quantization of Ricci Curvature in Information Geometry

Este artigo resolve uma conjectura de 20 anos sobre a quantização da curvatura de Ricci em bitnets, provando que a média do escalar de Ricci é quantizada em semi-inteiros positivos para redes em árvore e completas, mas refutando a generalidade da conjectura ao apresentar contraexemplos com ciclos e estendendo a análise para redes Gaussianas, onde se observa uma dicotomia de sinal entre curvaturas positivas e negativas.

Carlos C. Rodriguez2026-03-12🔢 math

Training Language Models via Neural Cellular Automata

O artigo propõe o uso de autômatos celulares neurais para gerar dados sintéticos não linguísticos que, ao serem utilizados em uma fase de pré-pré-treinamento, melhoram significativamente a eficiência, a convergência e o desempenho em tarefas de raciocínio de modelos de linguagem grandes, superando até mesmo o pré-treinamento com grandes volumes de texto natural.

Dan Lee, Seungwook Han, Akarsh Kumar, Pulkit Agrawal2026-03-12🤖 cs.LG

HTMuon: Improving Muon via Heavy-Tailed Spectral Correction

O artigo apresenta o HTMuon, um otimizador que melhora o treinamento de modelos de linguagem grandes ao corrigir a supressão de espectros de pesos de cauda pesada no Muon original, resultando em melhor desempenho e fundamentação teórica baseada na teoria de auto-regularização de cauda pesada.

Tianyu Pang, Yujie Fang, Zihang Liu, Shenyang Deng, Lei Hsiung, Shuhua Yu, Yaoqing Yang2026-03-12🤖 cs.LG

Improving Search Agent with One Line of Code

O artigo propõe o SAPO, uma modificação de uma única linha no algoritmo GRPO que estabiliza o treinamento de agentes de busca ao aplicar uma restrição condicional de KL em nível de token, eliminando o colapso catastrófico causado pelo desvio na distribuição de amostragem e resultando em melhorias significativas de desempenho em benchmarks de perguntas e respostas.

Jian Li, Dongsheng Chen, Zhenhua Xu, Yizhang Jin, Jiafu Wu, Chengjie Wang, Xiaotong Yuan, Yabiao Wang2026-03-12🤖 cs.LG

Dissecting Chronos: Sparse Autoencoders Reveal Causal Feature Hierarchies in Time Series Foundation Models

Este estudo aplica autoencoders esparsos ao modelo Chronos-T5-Large para revelar uma hierarquia causal de características em séries temporais, demonstrando que os recursos mais críticos para a previsão residem nas camadas intermediárias de detecção de mudanças abruptas, e não nas camadas finais semanticamente mais ricas.

Anurag Mishra2026-03-12🤖 cs.LG

Marginals Before Conditionals

O artigo demonstra que redes neurais aprendem primeiro a distribuição marginal de uma tarefa ambígua, estabilizando-se em um platô de erro determinado pelo nível de ambiguidade, antes de sofrer uma transição abrupta para a solução condicional completa, um processo governado pelo ruído do gradiente e pela formação antecipada de um mecanismo de roteamento seletor.

Mihir Sahasrabudhe2026-03-12🤖 cs.LG

Stochastic Port-Hamiltonian Neural Networks: Universal Approximation with Passivity Guarantees

O artigo apresenta as Redes Neurais Port-Hamiltonianas Estocásticas (SPH-NNs), que garantem passividade e demonstram capacidade de aproximação universal para sistemas dinâmicos estocásticos, superando redes neurais tradicionais na preservação de propriedades energéticas e na precisão de previsões de longo prazo.

Luca Di Persio, Matthias Ehrhardt, Youness Outaleb2026-03-12🤖 cs.LG

Large Spikes in Stochastic Gradient Descent: A Large-Deviations View

O artigo analisa o treinamento de SGD em redes neurais rasas sob a escala NTK, estabelecendo um critério explícito baseado em uma função $G$ que determina a probabilidade de ocorrência de grandes picos de achatamento do NTK durante a fase de catapultas.

Benjamin Gess, Daniel Heydecker2026-03-12🤖 cs.LG

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

O artigo propõe o "Amnesia", um ataque adversarial leve que manipula os estados internos de modelos de linguagem grandes (LLMs) para contornar mecanismos de segurança existentes e induzir a geração de conteúdo prejudicial sem a necessidade de ajuste fino ou treinamento adicional.

Ali Raza, Gurang Gupta, Nikolay Matyunin, Jibesh Patra2026-03-12🤖 cs.AI

Mitigating Frequency Learning Bias in Quantum Models via Multi-Stage Residual Learning

Este artigo propõe e valida uma abordagem de aprendizado residual multiestágio no domínio quântico para mitigar o viés de aprendizado de frequência, demonstrando que essa técnica melhora significativamente a capacidade dos modelos de aprender componentes espectrais complexos em comparação com baselines de estágio único.

Ammar Daskin2026-03-12⚛️ quant-ph

Digging Deeper: Learning Multi-Level Concept Hierarchies

O artigo apresenta o Multi-Level Concept Splitting (MLCS) e o Deep-HiCEMs, métodos que superam as limitações de hierarquias rasas ao descobrir hierarquias de conceitos multinível a partir de supervisão de alto nível e permitir intervenções em múltiplos níveis de abstração, mantendo alta precisão e interpretabilidade.

Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik2026-03-12🤖 cs.LG

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

O KernelSkill é um framework multiagente que otimiza kernels de GPU substituindo heurísticas implícitas de modelos de linguagem por habilidades de especialistas baseadas em conhecimento e uma arquitetura de memória dupla, alcançando sucesso de 100% e acelerações significativas em relação ao Torch Eager e a métodos anteriores.

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu2026-03-12🤖 cs.LG

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

O artigo apresenta o ES-dLLM, um framework de aceleração de inferência sem treinamento para modelos de linguagem difusivos (dLLMs) que reduz o custo computacional ao pular tokens em camadas iniciais com base na variação de representações intermediárias e em scores de confiança, alcançando ganhos de velocidade significativos sem comprometer a qualidade da geração.

Zijian Zhu, Fei Ren, Zhanhong Tan, Kaisheng Ma2026-03-12🤖 cs.LG

A Survey of Weight Space Learning: Understanding, Representation, and Generation

Este artigo apresenta a primeira taxonomia unificada de Aprendizado no Espaço de Pesos (WSL), categorizando métodos em compreensão, representação e geração de pesos de redes neurais para habilitar aplicações como recuperação de modelos, aprendizado federado e reconstrução sem dados.

Xiaolong Han, Zehong Wang, Bo Zhao, Binchi Zhang, Jundong Li, Damian Borth, Rose Yu, Haggai Maron, Yanfang Ye, Lu Yin, Ferrante Neri2026-03-12🤖 cs.LG

Equivariant Asynchronous Diffusion: An Adaptive Denoising Schedule for Accelerated Molecular Conformation Generation

O artigo apresenta o Equivariant Asynchronous Diffusion (EAD), um novo modelo de difusão que combina agendamento assíncrono e mecanismos de agendamento dinâmico para superar as limitações dos métodos existentes e alcançar desempenho state-of-the-art na geração de conformações moleculares 3D.

Junyi An, Chao Qu, Yun-Fei Shi, Zhijian Zhou, Fenglei Cao, Yuan Qi2026-03-12🧬 q-bio

Rethinking Adam for Time Series Forecasting: A Simple Heuristic to Improve Optimization under Distribution Shifts

Este artigo apresenta o TS_Adam, uma variante leve do otimizador Adam que remove a correção de viés de segunda ordem para melhorar a adaptabilidade e o desempenho em tarefas de previsão de séries temporais não estacionárias, sem exigir hiperparâmetros adicionais.

Yuze Dong, Jinsong Wu2026-03-12🤖 cs.LG

← Anterior Próximo →