Quality Assurance of LLM-generated Code: Addressing Non-Functional Quality Characteristics

Este estudo identifica uma desconexão entre a pesquisa acadêmica, as prioridades da indústria e o comportamento observado dos modelos de linguagem, revelando que a otimização de características de qualidade não funcional em código gerado por IA é instável e exige a integração de mecanismos de garantia de qualidade para evitar o acúmulo de dívida técnica.

Xin Sun, Daniel Ståhl, Kristian Sandahl, Christoph KesslerFri, 13 Ma🤖 cs.AI

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

O artigo apresenta o DIVE, uma abordagem baseada em evidências que inverte a ordem de síntese de tarefas para gerar dados de treinamento diversos e executáveis, demonstrando que escalar a diversidade de ferramentas e padrões de uso é mais eficaz para a generalização em tarefas fora da distribuição do que simplesmente aumentar a quantidade de dados.

Aili Chen, Chi Zhang, Junteng Liu, Jiangjie Chen, Chengyu Du, Yunji Li, Ming Zhong, Qin Wang, Zhengmao Zhu, Jiayuan Song, Ke Ji, Junxian He, Pengyu Zhao, Yanghua XiaoFri, 13 Ma🤖 cs.AI

CR-Bench: Evaluating the Real-World Utility of AI Code Review Agents

O artigo apresenta o CR-Bench e o CR-Evaluator, uma nova infraestrutura de benchmark e avaliação granular para agentes de revisão de código, que revela o trade-off crítico entre a resolução de problemas reais e a geração de achados espúrios, fornecendo uma base essencial para o desenvolvimento de agentes de IA eficazes em fluxos de trabalho de engenharia de software do mundo real.

Kristen Pereira, Neelabh Sinha, Rajat Ghosh, Debojyoti DuttaFri, 13 Ma💬 cs.CL

Quality-Driven Agentic Reasoning for LLM-Assisted Software Design: Questions-of-Thoughts (QoT) as a Time-Series Self-QA Chain

O artigo apresenta o Questions-of-Thoughts (QoT), um método de raciocínio agênico que transforma objetivos de usuário em sequências de etapas de engenharia com autoquestionamento para verificar restrições, demonstrando melhorias consistentes na qualidade de designs de software assistidos por LLMs em domínios como APIs, comunicação de dados e sistemas de arquivos, especialmente em modelos maiores e tarefas complexas.

Yen-Ku Liu, Yun-Cheng TsaiFri, 13 Ma🤖 cs.AI

Social, Legal, Ethical, Empathetic and Cultural Norm Operationalisation for AI Agents

Este artigo propõe um processo sistemático para operacionalizar normas sociais, legais, éticas, empáticas e culturais (SLEEC) em agentes de IA, preenchendo a lacuna entre princípios abstratos e requisitos concretos, além de apresentar um quadro de referência e uma agenda de pesquisa para garantir a alinhamento demonstrável desses sistemas com valores humanos.

Radu Calinescu, Ana Cavalcanti, Marsha Chechik, Lina Marsso, Beverley TownsendFri, 13 Ma🤖 cs.AI

Automatic Generation of High-Performance RL Environments

Este artigo apresenta um método reutilizável de baixo custo que utiliza prompts genéricos, verificação hierárquica e reparo iterativo assistido por agentes para traduzir automaticamente ambientes complexos de Aprendizado por Reforço em implementações de alto desempenho semanticamente equivalentes, alcançando ganhos de velocidade de até 22.320 vezes em relação a referências existentes.

Seth Karten, Rahul Dev Appapogu, Chi JinFri, 13 Ma🤖 cs.LG

Exploration of Evolving Quantum Key Distribution Network Architecture Using Model-Based Systems Engineering

Este artigo propõe uma abordagem de engenharia de sistemas baseada em modelos, utilizando Linguagem de Modelagem de Sistemas e Modelagem de Variabilidade Ortogonal, para mapear e gerenciar a evolução de arquiteturas de redes de Distribuição Quântica de Chaves, visando criar soluções modulares e reutilizáveis que atendam às crescentes demandas por telecomunicações seguras contra ameaças quânticas.

Hayato Ishida, Amal Elsokary, Maria Aslam + 3 more2026-03-10⚛️ quant-ph

Automated TEE Adaptation with LLMs: Identifying, Transforming, and Porting Sensitive Functions in Programs

Este artigo apresenta o AUTOTEE, a primeira abordagem baseada em Grandes Modelos de Linguagem (LLMs) que automatiza a identificação, transformação e portabilidade de funções sensíveis para Ambientes de Execução Confiáveis (TEEs), alcançando altas taxas de sucesso na adaptação de código Java e Python com intervenção mínima do desenvolvedor.

Ruidong Han, Zhou Yang, Chengyan Ma, Ye Liu, Yuqing Niu, Siqi Ma, Debin Gao, David Lo2026-03-06🔒 cs.CR

Assessing the Impact of Code Changes on the Fault Localizability of Large Language Models

Este artigo apresenta uma investigação empírica em larga escala que revela que a capacidade de modelos de linguagem grandes (LLMs) de localizar falhas em código é altamente frágil a mutações semânticas, indicando que seu raciocínio depende excessivamente de pistas sintáticas irrelevantes em vez de compreender a lógica profunda do programa.

Sabaat Haroon, Ahmad Faraz Khan, Ahmad Humayun + 5 more2026-03-06💻 cs

Vision Language Model-based Testing of Industrial Autonomous Mobile Robots

Este artigo apresenta o RVSG, uma abordagem baseada em Modelos de Linguagem Visual (VLM) desenvolvida em parceria com a PAL Robotics para testar robôs móveis autônomos industriais, gerando automaticamente cenários de comportamento humano que violam requisitos de segurança e funcionalidade em simulações, a fim de identificar falhas de forma mais segura, econômica e diversificada do que os testes tradicionais.

Jiahui Wu, Chengjie Lu, Aitor Arrieta + 2 more2026-03-06💻 cs

Refactoring for Novices in Java: An Eye Tracking Study on the Extract vs. Inline Methods

Este estudo com rastreamento ocular em 32 novatos de Java revela que, embora a extração de métodos seja geralmente preferida para legibilidade, ela pode prejudicar o desempenho e aumentar o esforço cognitivo em tarefas simples, enquanto melhora significativamente a eficiência em tarefas mais complexas, sugerindo cautela na modularização prematura para iniciantes.

José Aldo Silva da Costa, Rohit Gheyi, José Júnior Silva da Costa + 5 more2026-03-06💻 cs