cs.LG artigos | Gist.Science

Task-Conditioned Routing Signatures in Sparse Mixture-of-Experts Transformers

Este artigo demonstra que os mecanismos de roteamento em arquiteturas Sparse Mixture-of-Experts (MoE) exibem uma estrutura sensível à tarefa, onde prompts da mesma categoria geram assinaturas de roteamento altamente similares que permitem a classificação precisa de tarefas, sugerindo que o roteamento é um componente condicional mensurável e não apenas um mecanismo de equilíbrio de carga.

Mynampati Sri Ranganadha Avinash2026-03-13🤖 cs.LG

A Learning-Based Superposition Operator for Non-Renewal Arrival Processes in Queueing Networks

Este artigo propõe um operador de superposição baseado em aprendizado profundo que, ao mapear momentos e descritores de autocorrelação de fluxos de entrada não renováveis, permite uma avaliação escalável e precisa de redes de filas com convergência de tráfego, superando as limitações das aproximações clássicas ao preservar informações de variabilidade e dependência de ordem superior.

Eliran Sherzer2026-03-13🤖 cs.LG

Group Resonance Network: Learnable Prototypes and Multi-Subject Resonance for EEG Emotion Recognition

O artigo propõe a Rede de Ressonância de Grupo (GRN), um modelo que integra dinâmicas individuais de EEG com protótipos aprendíveis e sincronia inter-sujeitos para superar a variabilidade entre indivíduos e melhorar o reconhecimento de emoções em cenários cruzados.

Renwei Meng2026-03-13🤖 cs.LG

High-resolution weather-guided surrogate modeling for data-efficient cross-location building energy prediction

Este estudo apresenta um modelo substituto de alta resolução, orientado por dados meteorológicos semanais, que supera as limitações de generalização das abordagens anteriores ao capturar padrões recorrentes de demanda energética, permitindo prever com precisão o consumo de energia em edifícios de diferentes localizações sem a necessidade de simulações extensas em múltiplos sites.

Piragash Manmatharasan, Girma Bitsuamlak, Katarina Grolinger2026-03-13🤖 cs.LG

Co-Diffusion: An Affinity-Aware Two-Stage Latent Diffusion Framework for Generalizable Drug-Target Affinity Prediction

O artigo apresenta o Co-Diffusion, um novo framework de duas etapas baseado em difusão latente que supera as limitações de generalização em regimes de frio extremo ao alinhar embeddings de fármacos e alvos em um manifold orientado pela afinidade e aplicar difusão latente específica de modalidade como regularizador estocástico, resultando em desempenho superior na previsão de afinidade fármaco-alvo, especialmente para estruturas moleculares e famílias proteicas não vistas.

Yining Qian, Pengjie Wang, Yixiao Li, An-Yang Lu, Cheng Tan, Shuang Li, Lijun Liu2026-03-13📊 stat

Efficient Approximation to Analytic and $L^p$ functions by Height-Augmented ReLU Networks

Este trabalho demonstra que uma arquitetura de rede neural tridimensional baseada em funções ReLU permite aproximações exponencialmente mais eficientes e de alta ordem para funções analíticas e $L^p$ , superando limitações teóricas anteriores e oferecendo um caminho para redes mais parcimoniosas em parâmetros.

ZeYu Li, FengLei Fan, TieYong Zeng2026-03-13📊 stat

Beyond Barren Plateaus: A Scalable Quantum Convolutional Architecture for High-Fidelity Image Classification

Este trabalho propõe uma nova arquitetura de Rede Neural Convolucional Quântica (QCNN) que mitiga o problema de platôs áridos e supera os modelos clássicos, alcançando 98,7% de precisão na classificação de imagens do MNIST com maior eficiência de parâmetros.

Radhakrishnan Delhibabu2026-03-13🤖 cs.LG

Higher-Order Modular Attention: Fusing Pairwise and Triadic Interactions for Protein Sequences

O artigo apresenta o HOMA, um novo operador de atenção unificado que combina interações pares e triádicas para melhorar a previsão de fenótipos em sequências de proteínas, superando os modelos de atenção padrão em diversas tarefas de benchmark.

Shirin Amiraslani, Xin Gao2026-03-13🤖 cs.LG

Conformal e-prediction in the presence of confounding

Este artigo estende a predição e-conformal para lidar com situações de confusão observada entre o objeto aleatório e seu rótulo, considerando tanto cenários de dados independentes e identicamente distribuídos (IID) quanto casos que permitem dependência entre as observações.

Vladimir Vovk, Ruodu Wang2026-03-13📊 stat

Scaling Reasoning Efficiently via Relaxed On-Policy Distillation

O artigo apresenta o REOPOLD, um framework de destilação on-policy relaxada que estabiliza o treinamento ao interpretar a relação professor-aluno como recompensa de otimização de política, resultando em maior eficiência de amostragem e desempenho superior em tarefas de raciocínio matemático, visual e de agentes em comparação com abordagens anteriores.

Jongwoo Ko, Sara Abdali, Young Jin Kim, Tianyi Chen, Pashmina Cameron2026-03-13🤖 cs.LG

Deep regression learning from dependent observations with minimum error entropy principle

Este artigo propõe e analisa estimadores de redes neurais profundas baseados no princípio de entropia mínima do erro para regressão não paramétrica com observações dependentes, demonstrando que alcançam a taxa de convergência minimax ótima sob condições de mistura forte.

William Kengne, Modou Wade2026-03-13📊 stat

H2LooP Spark Preview: Continual Pretraining of Large Language Models for Low-Level Embedded Systems Code

O artigo apresenta o H2LooP Spark Preview, um pipeline de pré-treinamento contínuo que adapta o modelo de linguagem aberto OLMo-3-7B para o domínio de sistemas embarcados de baixo nível, resultando em um modelo de 7B que supera sistemas fechados de ponta em tarefas específicas de código ao ser treinado com 23,5 bilhões de tokens de dados especializados.

Amit Singh, Vedant Nipane, Pulkit Agrawal, Jatin Kishnani2026-03-13🤖 cs.LG

Procedural Fairness via Group Counterfactual Explanation

Este artigo apresenta o GCIG, um framework de regularização que promove a justiça processual em modelos de aprendizado de máquina ao garantir a estabilidade das explicações entre diferentes grupos protegidos, reduzindo disparidades explicativas sem comprometer o desempenho preditivo.

Gideon Popoola, John Sheppard2026-03-13🤖 cs.LG

Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT

O artigo utiliza técnicas de interpretabilidade mecânica para revelar que, em modelos VideoViT pré-treinados, a representação causal de resultados de ações humanas (sucesso vs. falha) é gerada por um circuito distribuído e redundante onde os mecanismos de atenção atuam como coletores de evidências e os blocos MLP como compositores de conceitos, demonstrando que modelos de classificação podem desenvolver "conhecimento oculto" sofisticado que exige supervisão mecânica para garantir AI confiável.

Sai V R Chereddy2026-03-13🤖 cs.LG

Catalogue Grounded Multimodal Attribution for Museum Video under Resource and Regulatory Constraints

Este artigo propõe um pipeline automatizado e localmente implantável que utiliza modelos de linguagem multimodais para gerar metadados descritivos e atribuições de artistas em vídeos de museus, melhorando a descoberta de arquivos audiovisuais enquanto respeita restrições de recursos, soberania de dados e regulamentações.

Minsak Nanang, Adrian Hilton, Armin Mustafa2026-03-13🤖 cs.LG

Systematic Scaling Analysis of Jailbreak Attacks in Large Language Models

Este artigo estabelece uma análise sistemática de leis de escala para ataques de jailbreak em modelos de linguagem grandes, demonstrando que métodos baseados em prompt são mais eficientes computacionalmente e alcançam maior sucesso e sigilo do que abordagens de otimização, além de revelar que a vulnerabilidade varia significativamente dependendo do tipo de dano pretendido.

Xiangwen Wang, Ananth Balashankar, Varun Chandrasekaran2026-03-13🤖 cs.LG

Algorithmic Capture, Computational Complexity, and Inductive Bias of Infinite Transformers

Este artigo define formalmente a "captura algorítmica" e demonstra que, apesar de sua expressividade universal, os transformers de largura infinita possuem um viés indutivo que os limita a aprender algoritmos de baixa complexidade dentro da classe EPTHS, impedindo a generalização para tarefas computacionalmente mais complexas.

Orit Davidovich, Zohar Ringel2026-03-13🤖 cs.LG

Learning to Unscramble: Simplifying Symbolic Expressions via Self-Supervised Oracle Trajectories

Este artigo apresenta uma nova abordagem de aprendizado de máquina auto-supervisionado que utiliza trajetórias de oráculo para treinar uma rede neural baseada em transformadores, alcançando taxas de simplificação quase perfeitas em expressões matemáticas complexas da física de altas energias, superando significativamente métodos anteriores.

David Shih2026-03-13⚛️ hep-th

Huntington Disease Automatic Speech Recognition with Biomarker Supervision

Este artigo apresenta um estudo sistemático de reconhecimento automático de fala para a doença de Huntington, demonstrando que a adaptação específica da doença e o uso de supervisão auxiliar baseada em biomarcadores reduzem significativamente a taxa de erro, ao mesmo tempo em que revela padrões de erro distintos dependentes da gravidade da condição.

Charles L. Wang, Cady Chen, Ziwei Gong, Julia Hirschberg2026-03-13🤖 cs.LG

PACED: Distillation at the Frontier of Student Competence

O artigo apresenta o PACED, um framework de destilação de modelos de linguagem que otimiza o aprendizado ao focar exclusivamente nos problemas na fronteira da competência do modelo estudante, utilizando uma função de ponderação baseada na teoria de sinal-ruído para maximizar a eficiência e evitar o esquecimento de capacidades já adquiridas.

Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-13🤖 cs.AI

← Anterior Próximo →

cs.LG