Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

Este artigo apresenta uma análise sistemática de 178 benchmarks para modelos de linguagem e agentes de código, revelando um desequilíbrio significativo que prioriza excessivamente a fase de implementação em detrimento do planejamento e design, além de apontar a falta de estratégias contra contaminação de dados e propor direções futuras para alinhar as capacidades teóricas dessas ferramentas com sua eficácia prática no ciclo de vida de desenvolvimento de software.

Kaixin Wang, Tianlin Li, Xiaoyu Zhang, Chong Wang, Weisong Sun, Yang Liu, Aishan Liu, Xianglong Liu, Chao Shen, Bin Shi2026-03-09🤖 cs.AI

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

Este artigo propõe o método K-CAST, uma técnica de direcionamento de ativação condicional baseada em kNN que mitiga eficazmente os vieses de conteúdo no raciocínio de modelos de linguagem, melhorando a precisão do raciocínio formal em até 15% sem prejudicar significativamente outras capacidades do modelo.

Marco Valentino, Geonhee Kim, Dhairya Dalal, Zhixue Zhao, André Freitas2026-03-09🤖 cs.AI

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

O artigo apresenta o AdAEM, um algoritmo de avaliação adaptativo e automatizado que gera dinamicamente perguntas de teste para identificar e medir as diferenças de valores entre Grandes Modelos de Linguagem (LLMs), superando as limitações de métodos estáticos atuais ao maximizar a distinção informativa sobre vieses e alinhamentos culturais.

Jing Yao, Shitong Duan, Xiaoyuan Yi, Dongkuan Xu, Peng Zhang, Tun Lu, Ning Gu, Zhicheng Dou, Xing Xie2026-03-09🤖 cs.AI

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

O artigo apresenta o ESGenius, o primeiro benchmark abrangente para avaliar o conhecimento de modelos de linguagem em ESG e sustentabilidade, demonstrando que, embora os modelos de ponta apresentem desempenho moderado em cenários zero-shot, a integração de métodos de Geração Aumentada por Recuperação (RAG) com um corpus de fontes autoritativas eleva significativamente a precisão, especialmente em modelos menores.

Chaoyue He, Xin Zhou, Yi Wu + 9 more2026-03-09💬 cs.CL

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

O artigo apresenta o KramaBench, um benchmark composto por 104 desafios curados manualmente para avaliar a capacidade de sistemas de IA em orquestrar pipelines completos de dados a insights em lagos de dados, revelando que, embora os modelos atuais consigam identificar tarefas individuais, eles ainda têm dificuldade significativa em gerar e executar pipelines funcionais de ponta a ponta.

Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Om Chabra, Sivaprasad Sudhir, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim Kraska2026-03-09🤖 cs.AI

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

O artigo apresenta o VisioMath, um novo benchmark de 1.800 problemas matemáticos do ensino fundamental e médio que avaliam a capacidade de raciocínio comparativo de Modelos Multimodais Grandes (LMMs) ao distinguir diagramas visualmente similares, revelando que falhas frequentes decorrem de desalinhamento entre imagem e texto e demonstrando que estratégias de alinhamento podem melhorar significativamente o desempenho desses modelos.

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang2026-03-09🤖 cs.AI

Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs

Este artigo propõe uma nova avaliação multidimensional da competência moral em modelos de linguagem, revelando que, embora superem humanos em cenários éticos pré-definidos, eles falham significativamente em discernir informações moralmente relevantes em meio a ruídos, sugerindo que as avaliações atuais superestimam suas capacidades de raciocínio moral.

Daniel Kilov, Caroline Hendy, Secil Yanik Guyot, Aaron J. Snoswell, Seth Lazar2026-03-09🤖 cs.AI

ContextBench: Modifying Contexts for Targeted Latent Activation

O artigo apresenta o ContextBench, um benchmark que avalia métodos de modificação de contexto para ativar características latentes específicas em modelos de linguagem, demonstrando que variantes aprimoradas do EPO alcançam o estado da arte ao equilibrar eficazmente a força de elicitação e a fluência linguística.

Robert Graham, Edward Stevinson, Leo Richter, Alexander Chia, Joseph Miller, Joseph Isaac Bloom2026-03-09🤖 cs.AI

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

O artigo apresenta o Sysformer, uma abordagem inovadora que utiliza um modelo transformador para adaptar dinamicamente os prompts de sistema de grandes modelos de linguagem (LLMs) congelados, melhorando significativamente sua robustez contra ataques de jailbreak e garantindo respostas seguras sem a necessidade de custosos ajustes nos parâmetros do modelo.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

Iterative Quantum Feature Maps

O artigo propõe os Mapas de Recursos Quânticos Iterativos (IQFMs), um framework híbrido que combina mapas de recursos quânticos rasos com pesos de aumento clássicos e aprendizado contrastivo para criar arquiteturas profundas que superam redes neurais quânticas convolucionais em tarefas ruidosas e evitam a otimização de parâmetros variacionais, oferecendo uma solução promissora para as limitações de hardware atual.

Nasa Matsumoto, Quoc Hoan Tran, Koki Chinzei, Yasuhiro Endo, Hirotaka Oshima2026-03-09⚛️ quant-ph

SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability

O artigo apresenta o SPARC, um novo framework que utiliza autoencoders esparsos alinhados para criar um espaço latente unificado e compartilhado entre diferentes arquiteturas e modalidades de IA, permitindo a comparação direta de conceitos de alto nível e habilitando aplicações como localização espacial guiada por texto e recuperação cruzada.

Ali Nasiri-Sarvi, Hassan Rivaz, Mahdi S. Hosseini2026-03-09🤖 cs.AI

ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis

O artigo apresenta o ExDD, um novo framework para detecção de defeitos industriais que supera as limitações dos paradigmas de uma única classe ao modelar explicitamente distribuições duplas de características e utilizar modelos de difusão latente para gerar defeitos sintéticos, alcançando desempenho superior no conjunto de dados KSDD2.

Muhammad Aqeel, Federico Leonardi, Francesco Setti2026-03-09🤖 cs.AI

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

Este trabalho apresenta um sistema multiagente baseado em modelos de linguagem grandes multimodais (MLLM) que supera significativamente o estado da arte na extração automática e robusta de informações químicas complexas de gráficos e textos da literatura, facilitando a construção de bancos de dados estruturados para impulsionar a pesquisa química orientada por IA.

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

O artigo propõe o método MAP, uma técnica de decodificação sem treinamento que mitiga alucinações em Modelos de Linguagem e Visão Grandes ao interpretar os estados ocultos como mapas semânticos 2D e aplicar operações de atenção em nível de mapa para melhorar a consistência factual.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

O artigo apresenta o VLMQ, um framework de quantização pós-treinamento (PTQ) projetado especificamente para modelos visão-linguagem (VLMs) que, ao identificar e mitigar a super-representação visual e a lacuna entre modalidades por meio da priorização seletiva de tokens salientes, alcança desempenho superior ao estado da arte, especialmente em configurações de baixa precisão.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

O artigo apresenta o SGDFuse, um modelo de difusão condicional guiado pelo Segment Anything Model (SAM) que utiliza máscaras semânticas como priores explícitos para realizar a fusão de imagens infravermelhas e visíveis com alta fidelidade, preservando alvos-chave e melhorando o desempenho em tarefas visuais subsequentes.

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI