cs.LG artigos | Gist.Science

ProtAlign: Contrastive learning paradigm for Sequence and structure alignment

O artigo apresenta o ProtAlign, um framework de aprendizado contrastivo que alinha sequências e estruturas de proteínas em um espaço de representação compartilhado, superando as limitações dos métodos tradicionais e melhorando tarefas como recuperação cruzada, anotação funcional e estimativa de estabilidade.

Aditya Ranganath, Hasin Us Sami, Kowshik Thopalli, Bhavya Kailkhura, Wesam Sakla2026-03-10🤖 cs.LG

Bi Directional Feedback Fusion for Activity Aware Forecasting of Indoor CO2 and PM2.5

Este artigo apresenta um framework de fusão com feedback bidirecional que integra dados ambientais e comportamentais para melhorar a previsão de CO2 e PM2.5 em ambientes internos, superando os modelos tradicionais ao capturar dinâmicas complexas e oferecer estimativas de incerteza interpretáveis.

Harshala Gammulle, Lidia Morawska, Sridha Sridharan, Clinton Fookes2026-03-10🤖 cs.LG

Regression Models Meet Foundation Models: A Hybrid-AI Approach to Practical Electricity Price Forecasting

O artigo propõe o FutureBoosting, uma abordagem híbrida que integra previsões de modelos fundacionais de séries temporais como recursos enriquecidos em modelos de regressão, resultando em uma melhoria superior a 30% na precisão da previsão de preços de eletricidade em comparação com os métodos mais avançados.

Yunzhong Qiu, Binzhu Li, Hao Wei, Shenglin Weng, Chen Wang, Zhongyi Pei, Mingsheng Long, Jianmin Wang2026-03-10🤖 cs.LG

Safe Transformer: An Explicit Safety Bit For Interpretable And Controllable Alignment

O artigo propõe o "Safe Transformer", uma abordagem modular que insere um "bit de segurança" explícito e controlável entre as camadas de modelos de linguagem pré-treinados, permitindo que a decisão de segurança seja diretamente interpretável e manipulável sem a necessidade de um pré-treinamento do zero, enquanto mantém a capacidade de geração e alcança taxas de sucesso de ataque próximas de zero em benchmarks de teste de segurança.

Jingyuan Feng, Andrew Gambardella, Gouki Minegishi, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo2026-03-10🤖 cs.LG

Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

O artigo apresenta o Orion, o primeiro sistema de ponta a ponta que permite o treinamento e inferência estáveis de modelos de linguagem diretamente na Neural Engine da Apple, contornando as limitações do CoreML através de APIs privadas, descobrindo novas restrições de hardware e otimizando o processo de treinamento ao reduzir drasticamente o tempo de recompilação de pesos.

Ramchand Kumaresan2026-03-10🤖 cs.LG

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

O artigo propõe uma abordagem de aprendizado por reforço que utiliza codificação de observação invariante à densidade e recompensas adaptativas para permitir que agentes de navegação social generalizem com sucesso para multidões mais densas do que as vistas no treinamento, evitando tanto colisões quanto o congelamento em interações complexas.

Jiefu Zhang, Yang Xu, Vaneet Aggarwal2026-03-10🤖 cs.LG

PolyBlocks: A Compiler Infrastructure for AI Chips and Programming Frameworks

O artigo apresenta o PolyBlocks, uma infraestrutura de compilador modular baseada em MLIR para frameworks e chips de IA, que utiliza pipelines de passagens e modelos de custo analíticos para gerar automaticamente código de alto desempenho, demonstrando resultados competitivos com soluções como Torch Inductor e XLA em GPUs NVIDIA.

Uday Bondhugula, Akshay Baviskar, Navdeep Katel, Vimal Patel, Anoop JS, Arnab Dutta2026-03-10🤖 cs.LG

Calibrated Credit Intelligence: Shift-Robust and Fair Risk Scoring with Bayesian Uncertainty and Gradient Boosting

O artigo propõe o framework Calibrated Credit Intelligence (CCI), que combina pontuação neural bayesiana, gradient boosting com restrições de justiça e uma estratégia de fusão adaptada a mudanças de distribuição para gerar pontuações de risco de crédito precisas, bem calibradas e equitativas em cenários de implantação real com desvio temporal.

Srikumar Nayak2026-03-10🤖 cs.LG

Rank-Factorized Implicit Neural Bias: Scaling Super-Resolution Transformer with FlashAttention

O artigo propõe o viés neural implícito fatorado por posto (RIB), uma alternativa ao viés posicional relativo que permite o uso do FlashAttention em Transformers de super-resolução, possibilitando o escalonamento de janelas de atenção e patches de treinamento para alcançar desempenho superior com redução significativa no tempo de treinamento e inferência.

Dongheon Lee, Seokju Yun, Jaegyun Im, Youngmin Ro2026-03-10🤖 cs.LG

Heterogeneous Decentralized Diffusion Models

Este artigo apresenta um framework eficiente para modelos de difusão descentralizados heterogêneos que permite o treinamento de especialistas com objetivos distintos (DDPM e Flow Matching) sem sincronização, reduzindo drasticamente os requisitos computacionais e de dados em comparação com abordagens anteriores enquanto mantém ou melhora a qualidade e a diversidade das imagens geradas.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

Improved Constrained Generation by Bridging Pretrained Generative Models

Este artigo propõe uma nova estrutura de geração com restrições que ajusta modelos generativos pré-treinados para produzir amostras realistas dentro de regiões viáveis complexas, como mapas de estradas, equilibrando eficazmente a satisfação das restrições e a qualidade da amostragem.

Xiaoxuan Liang, Saeid Naderiparizi, Yunpeng Liu, Berend Zwartsenberg, Frank Wood2026-03-10🤖 cs.LG

Stabilizing Reinforcement Learning for Diffusion Language Models

O artigo propõe o StableDRL, um método de otimização de política reformulado que utiliza clipping incondicional e auto-normalização para estabilizar o treinamento de modelos de linguagem difusivos com GRPO, superando o colapso de recompensa causado pela incompatibilidade entre as estimativas ruidosas de razão de importância e a formulação padrão do algoritmo.

Jianyuan Zhong, Kaibo Wang, Ding Ding, Zijin Feng, Haoli Bai, Yang Xiang, Jiacheng Sun, Qiang Xu2026-03-10🤖 cs.LG

Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection

O artigo apresenta o DIRECTER, um novo método de direcionamento de ativação que utiliza um loop de decodificação guiado por plausibilidade e uma análise de sensibilidade leve para modular dinamicamente a força do direcionamento, melhorando significativamente a capacidade de seguir instruções de modelos de linguagem sem comprometer a qualidade do texto ou a fidelidade da tarefa.

Minjae Kang, Jaehyung Kim2026-03-10🤖 cs.LG

Property-driven Protein Inverse Folding With Multi-Objective Preference Alignment

O artigo apresenta o ProtAlign, um framework de alinhamento de preferências multi-objetivo que ajusta modelos de inversão de dobramento de proteínas pré-treinados para otimizar simultaneamente diversas propriedades de desenvolvimento, como solubilidade e estabilidade, sem comprometer a fidelidade estrutural.

Xiaoyang Hou, Junqi Liu, Chence Shi, Xin Liu, Zhi Yang, Jian Tang2026-03-10🤖 cs.LG

Latent Autoencoder Ensemble Kalman Filter for Data assimilation

Este artigo propõe o LAE-EnKF, um filtro de Kalman baseado em autoencoders latentes que reformula a assimilação de dados em um espaço latente com dinâmicas lineares e estáveis, superando as limitações de não linearidade do filtro de Kalman tradicional e demonstrando maior precisão e estabilidade em sistemas caóticos.

Xin T. Tong, Yanyan Wang, Liang Yan2026-03-10🤖 cs.LG

Implementation of Quantum Implicit Neural Representation in Deterministic and Probabilistic Autoencoders for Image Reconstruction/Generation Tasks

Este artigo propõe e valida autoencoders e autoencoders variacionais híbridos quântico-clássicos baseados em Representação Neural Implícita Quântica (QINR), demonstrando que essa arquitetura supera modelos como QGANs na geração e reconstrução de imagens ao produzir detalhes nítidos e maior diversidade com poucos parâmetros e dados.

Saadet Müzehher Eren2026-03-10⚛️ quant-ph

Learning Unbiased Cluster Descriptors for Interpretable Imbalanced Concept Drift Detection

O artigo propõe o método ICD3, uma abordagem de detecção de mudança de conceito baseada em descritores de cluster imparciais que identifica e monitora individualmente conceitos minoritários em dados desbalanceados, superando o efeito de mascaramento causado por grandes clusters e oferecendo alta interpretabilidade.

Yiqun Zhang, Zhanpei Huang, Mingjie Zhao, Chuyao Zhang, Yang Lu, Yuzhu Ji, Fangqing Gu, An Zeng2026-03-10🤖 cs.LG

Enhancing SHAP Explainability for Diagnostic and Prognostic ML Models in Alzheimer Disease

Este artigo propõe e valida um quadro de explicabilidade multi-nível que demonstra a robustez e a consistência das explicações SHAP em modelos de machine learning para diagnóstico e prognóstico da Doença de Alzheimer, utilizando dados do NACC para confirmar que marcadores cognitivos e funcionais dominam as previsões com estabilidade entre diferentes estágios da doença e tarefas clínicas.

Pablo Guillén, Enrique Frias-Martinez2026-03-10🤖 cs.LG

Diversity-Aware Adaptive Collocation for Physics-Informed Neural Networks via Sparse QUBO Optimization and Hybrid Coresets

Este artigo propõe um método de colocalização adaptativa e diversificada para Redes Neurais Informadas por Física (PINNs), formulando a seleção de pontos como um problema de otimização QUBO/BQM esparsa com âncoras híbridas para construir um conjunto de núcleo (coreset) que equilibra a importância do resíduo e a diversidade espacial-temporal, resultando em maior precisão e eficiência computacional na solução da equação de Burgers viscosa.

Hadi Salloum, Maximilian Mifsud Bonici, Sinan Ibrahim, Pavel Osinenko, Alexei Kornaev2026-03-10🤖 cs.LG

Prediction of Steady-State Flow through Porous Media Using Machine Learning Models

Este estudo desenvolve um framework de aprendizado de máquina para prever o fluxo em regime permanente em meios porosos, demonstrando que o Operador de Rede de Fourier (FNO) supera os modelos AE e U-Net ao oferecer previsões precisas e até 1000 vezes mais rápidas que a CFD tradicional, sendo ideal para otimização topológica de placas frias.

Jinhong Wang, Matei C. Ignuta-Ciuncanu, Ricardo F. Martinez-Botas, Teng Cao2026-03-10🤖 cs.LG

← Anterior Próximo →