cs.AI artigos | Gist.Science

Safe Transformer: An Explicit Safety Bit For Interpretable And Controllable Alignment

O artigo propõe o "Safe Transformer", uma abordagem modular que insere um "bit de segurança" explícito e controlável entre as camadas de modelos de linguagem pré-treinados, permitindo que a decisão de segurança seja diretamente interpretável e manipulável sem a necessidade de um pré-treinamento do zero, enquanto mantém a capacidade de geração e alcança taxas de sucesso de ataque próximas de zero em benchmarks de teste de segurança.

Jingyuan Feng, Andrew Gambardella, Gouki Minegishi, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo2026-03-10🤖 cs.LG

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

O artigo propõe uma abordagem de aprendizado por reforço que utiliza codificação de observação invariante à densidade e recompensas adaptativas para permitir que agentes de navegação social generalizem com sucesso para multidões mais densas do que as vistas no treinamento, evitando tanto colisões quanto o congelamento em interações complexas.

Jiefu Zhang, Yang Xu, Vaneet Aggarwal2026-03-10🤖 cs.LG

Calibrated Credit Intelligence: Shift-Robust and Fair Risk Scoring with Bayesian Uncertainty and Gradient Boosting

O artigo propõe o framework Calibrated Credit Intelligence (CCI), que combina pontuação neural bayesiana, gradient boosting com restrições de justiça e uma estratégia de fusão adaptada a mudanças de distribuição para gerar pontuações de risco de crédito precisas, bem calibradas e equitativas em cenários de implantação real com desvio temporal.

Srikumar Nayak2026-03-10🤖 cs.LG

Agent Hunt: Bounty Based Collaborative Autoformalization With LLM Agents

O artigo descreve o experimento "Agent Hunt", que utiliza um mercado simulado baseado em recompensas para coordenar múltiplos agentes de LLM em uma busca colaborativa e descentralizada por provas e definições formais de topologia algébrica dentro de um ambiente de Prova Teórica Interativa.

Chad E. Brown, Cezary Kaliszyk, Josef Urban2026-03-10💻 cs

Rank-Factorized Implicit Neural Bias: Scaling Super-Resolution Transformer with FlashAttention

O artigo propõe o viés neural implícito fatorado por posto (RIB), uma alternativa ao viés posicional relativo que permite o uso do FlashAttention em Transformers de super-resolução, possibilitando o escalonamento de janelas de atenção e patches de treinamento para alcançar desempenho superior com redução significativa no tempo de treinamento e inferência.

Dongheon Lee, Seokju Yun, Jaegyun Im, Youngmin Ro2026-03-10🤖 cs.LG

ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution

O artigo apresenta o ResearchEnvBench, um novo benchmark que avalia a capacidade de agentes autônomos de sintetizar ambientes de execução para código de pesquisa, revelando lacunas significativas nas soluções atuais quanto à resolução de dependências e compatibilidade de versões.

Yubang Wang, Chenxi Zhang, Bowen Chen, Zezheng Huai, Zihao Dai, Xinchi Chen, Yuxin Wang, Yining Zheng, Jingjing Gong, Xipeng Qiu2026-03-10💻 cs

ViroGym: Realistic Large-Scale Benchmarks for Evaluating Viral Proteins

O artigo apresenta o ViroGym, um benchmark abrangente que avalia modelos de linguagem proteica em proteínas virais utilizando dados de variação profunda e tarefas de neutralização para orientar a seleção racional de antígenos e a previsão de mutações dominantes.

Yichen Zhou, Jonathan Golob, Amir Karimi, Stefan Bauer, Patrick Schwab2026-03-10💻 cs

Heterogeneous Decentralized Diffusion Models

Este artigo apresenta um framework eficiente para modelos de difusão descentralizados heterogêneos que permite o treinamento de especialistas com objetivos distintos (DDPM e Flow Matching) sem sincronização, reduzindo drasticamente os requisitos computacionais e de dados em comparação com abordagens anteriores enquanto mantém ou melhora a qualidade e a diversidade das imagens geradas.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

Improved Constrained Generation by Bridging Pretrained Generative Models

Este artigo propõe uma nova estrutura de geração com restrições que ajusta modelos generativos pré-treinados para produzir amostras realistas dentro de regiões viáveis complexas, como mapas de estradas, equilibrando eficazmente a satisfação das restrições e a qualidade da amostragem.

Xiaoxuan Liang, Saeid Naderiparizi, Yunpeng Liu, Berend Zwartsenberg, Frank Wood2026-03-10🤖 cs.LG

Stabilizing Reinforcement Learning for Diffusion Language Models

O artigo propõe o StableDRL, um método de otimização de política reformulado que utiliza clipping incondicional e auto-normalização para estabilizar o treinamento de modelos de linguagem difusivos com GRPO, superando o colapso de recompensa causado pela incompatibilidade entre as estimativas ruidosas de razão de importância e a formulação padrão do algoritmo.

Jianyuan Zhong, Kaibo Wang, Ding Ding, Zijin Feng, Haoli Bai, Yang Xiang, Jiacheng Sun, Qiang Xu2026-03-10🤖 cs.LG

Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection

O artigo apresenta o DIRECTER, um novo método de direcionamento de ativação que utiliza um loop de decodificação guiado por plausibilidade e uma análise de sensibilidade leve para modular dinamicamente a força do direcionamento, melhorando significativamente a capacidade de seguir instruções de modelos de linguagem sem comprometer a qualidade do texto ou a fidelidade da tarefa.

Minjae Kang, Jaehyung Kim2026-03-10🤖 cs.LG

ButterflyViT: 354 $\times$ Expert Compression for Edge Vision Transformers

O artigo apresenta o ButterflyViT, um método inovador que supera as limitações de memória linear dos Mixture of Experts (MoE) em Vision Transformers para dispositivos de borda, alcançando uma redução de 354 vezes no uso de memória ao representar especialistas como reorientações geométricas de um substrato compartilhado, mantendo a precisão em tarefas de classificação de imagens.

Aryan Karmore2026-03-10💻 cs

Property-driven Protein Inverse Folding With Multi-Objective Preference Alignment

O artigo apresenta o ProtAlign, um framework de alinhamento de preferências multi-objetivo que ajusta modelos de inversão de dobramento de proteínas pré-treinados para otimizar simultaneamente diversas propriedades de desenvolvimento, como solubilidade e estabilidade, sem comprometer a fidelidade estrutural.

Xiaoyang Hou, Junqi Liu, Chence Shi, Xin Liu, Zhi Yang, Jian Tang2026-03-10🤖 cs.LG

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

Este artigo apresenta uma revisão abrangente dos modelos fundamentais robóticos (RFMs) e propõe um novo framework de avaliação com 149 critérios para analisar sua prontidão industrial, concluindo que, embora promissores, os modelos atuais ainda possuem maturidade limitada para aplicações industriais devido à falta de integração sistemática de segurança, tempo real e robustez.

David Kube, Simon Hadwiger, Tobias Meisen2026-03-10💻 cs

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

O artigo apresenta o XMACNet, uma rede neural convolucional leve e explicável que combina imagens RGB e índices de vegetação por meio de atenção automática e fusão multimodal para classificar doenças em pimenteiros com alta precisão, superando modelos existentes e permitindo implantação em dispositivos de borda.

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

Learning Unbiased Cluster Descriptors for Interpretable Imbalanced Concept Drift Detection

O artigo propõe o método ICD3, uma abordagem de detecção de mudança de conceito baseada em descritores de cluster imparciais que identifica e monitora individualmente conceitos minoritários em dados desbalanceados, superando o efeito de mascaramento causado por grandes clusters e oferecendo alta interpretabilidade.

Yiqun Zhang, Zhanpei Huang, Mingjie Zhao, Chuyao Zhang, Yang Lu, Yuzhu Ji, Fangqing Gu, An Zeng2026-03-10🤖 cs.LG

Enhancing SHAP Explainability for Diagnostic and Prognostic ML Models in Alzheimer Disease

Este artigo propõe e valida um quadro de explicabilidade multi-nível que demonstra a robustez e a consistência das explicações SHAP em modelos de machine learning para diagnóstico e prognóstico da Doença de Alzheimer, utilizando dados do NACC para confirmar que marcadores cognitivos e funcionais dominam as previsões com estabilidade entre diferentes estágios da doença e tarefas clínicas.

Pablo Guillén, Enrique Frias-Martinez2026-03-10🤖 cs.LG

Gradient-based Nested Co-Design of Aerodynamic Shape and Control for Winged Robots

Este artigo apresenta uma estrutura de co-projeto baseada em gradiente que otimiza conjuntamente a forma aerodinâmica e o planejador de movimento de robôs alados, utilizando um modelo substituto neural para simular fluxos complexos e melhorar o desempenho em tarefas como pousar e aterrissagem curta com maior eficiência computacional do que métodos anteriores.

Daniele Affinita, Mingda Xu, Benoît Valentin Gherardi, Pascal Fua2026-03-10💻 cs

Diversity-Aware Adaptive Collocation for Physics-Informed Neural Networks via Sparse QUBO Optimization and Hybrid Coresets

Este artigo propõe um método de colocalização adaptativa e diversificada para Redes Neurais Informadas por Física (PINNs), formulando a seleção de pontos como um problema de otimização QUBO/BQM esparsa com âncoras híbridas para construir um conjunto de núcleo (coreset) que equilibra a importância do resíduo e a diversidade espacial-temporal, resultando em maior precisão e eficiência computacional na solução da equação de Burgers viscosa.

Hadi Salloum, Maximilian Mifsud Bonici, Sinan Ibrahim, Pavel Osinenko, Alexei Kornaev2026-03-10🤖 cs.LG

Failure Detection in Chemical Processes using Symbolic Machine Learning: A Case Study on Ethylene Oxidation

Este artigo investiga a aplicação da aprendizagem simbólica para a deteção de falhas no processo de oxidação de etileno, demonstrando que este método supera abordagens baseadas em redes neurais em precisão e interpretabilidade, superando a escassez de dados reais através da simulação e propondo a integração desses modelos em agentes de apoio à decisão para operadores de plantas químicas.

Julien Amblard, Niklas Groll, Matthew Tait, Mark Law, Gürkan Sin, Alessandra Russo2026-03-10🤖 cs.LG

← Anterior Próximo →

cs.AI