DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

O artigo apresenta o DevBench, um benchmark baseado em dados reais de desenvolvedores que avalia modelos de linguagem em tarefas de geração de código com alta validade ecológica, oferecendo diagnósticos detalhados sobre precisão sintática, raciocínio semântico e utilidade prática para orientar a seleção e o aprimoramento de modelos.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie NallipoguTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

Este estudo demonstra que métricas espectrais extraídas de redes estruturais de requisitos, utilizando integração molecular como proxy controlado, preveem o esforço de integração com correlações superiores a 0,95, preenchendo uma lacuna crítica na quantificação da complexidade em engenharia de requisitos.

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

O artigo apresenta o GraphSkill, um framework de codificação com recuperação aumentada hierárquica guiada por documentação e agente de autodepuração, que supera as limitações de métodos existentes ao explorar a estrutura hierárquica de documentos técnicos e corrigir erros lógicos, validado por meio de um novo dataset e experimentos que demonstram maior precisão e menor custo de inferência em raciocínio complexo sobre grafos.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang WangTue, 10 Ma🤖 cs.LG

ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution

O artigo apresenta o ResearchEnvBench, um novo benchmark que avalia a capacidade de agentes autônomos de sintetizar ambientes de execução para código de pesquisa, revelando lacunas significativas nas soluções atuais quanto à resolução de dependências e compatibilidade de versões.

Yubang Wang, Chenxi Zhang, Bowen Chen, Zezheng Huai, Zihao Dai, Xinchi Chen, Yuxin Wang, Yining Zheng, Jingjing Gong, Xipeng QiuTue, 10 Ma💻 cs

Patch Validation in Automated Vulnerability Repair

O artigo apresenta o PVBench, um novo benchmark que revela que mais de 40% dos patches gerados por sistemas automáticos de reparo de vulnerabilidades, embora aprovados por testes básicos, falham em testes avançados (PoC+\text{PoC}^+), evidenciando a necessidade de melhorar a análise de causas raízes, a aderência a especificações e a captura da intenção dos desenvolvedores.

Zheng Yu, Wenxuan Shi, Xinqian Sun, Zheyun Feng, Meng Xu, Xinyu XingTue, 10 Ma💻 cs

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

Este estudo estabelece um quadro de avaliação multidimensional para modelos de linguagem pequenos (SLMs) na arquitetura de software, revelando que modelos acima de 3B parâmetros possuem capacidades robustas em zero-shot, enquanto os menores beneficiam-se mais do ajuste fino, e que a alta diversidade semântica em modelos prontos muitas vezes indica alucinação em vez de exploração produtiva.

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son HaTue, 10 Ma💻 cs

A Hybrid LTR-based System via Social Context Embedding for Recommending Solutions of Software Bugs in Developer Communities

Este artigo propõe um sistema híbrido de recomendação baseado em *Learning-to-Rank* e incorporação de contexto social, que utiliza técnicas de mineração de texto e aprendizado profundo em dados do Stack Overflow para auxiliar desenvolvedores a encontrar soluções para bugs de software, alcançando uma precisão de aproximadamente 78% ao sugerir as 10 melhores respostas.

Fouzi Harrag, Mokdad KhemlicheTue, 10 Ma💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Este estudo empírico demonstra que, sob diversas restrições de implantação, quatro modelos de linguagem de grande porte (LLMs) apresentam altas taxas de alucinação de citações bibliográficas, com taxas de existência verificável inferiores a 47,5%, o que reforça a necessidade imperativa de validação pós-geração antes de seu uso em síntese de evidências de engenharia de software.

Chen Zhao, Yuan Tang, Yitian QianTue, 10 Ma💻 cs

Echo: Graph-Enhanced Retrieval and Execution Feedback for Issue Reproduction Test Generation

O artigo apresenta o Echo, um agente inovador que utiliza recuperação aprimorada por grafos de código e feedback de execução automática para gerar casos de teste de reprodução de bugs com alta eficiência, estabelecendo um novo estado da arte com uma taxa de sucesso de 66,28% no conjunto de dados SWT-Bench Verified.

Zhiwei Fei, Yue Pan, Federica Sarro, Jidong Ge, Marc Liu, Vincent Ng, He YeTue, 10 Ma💻 cs

Regression Testing in Remote and Hybrid Software Teams: An Exploratory Study of Processes, Tools, and Practices

Este estudo qualitativo com vinte profissionais de software revela que, em ambientes remotos e híbridos, a execução do teste de regressão mantém-se estável em sua essência, mas depende crescentemente de documentação robusta, automação e integração de ferramentas para superar os desafios de coordenação e comunicação, transformando-se em uma prática socio-técnica moldada pela infraestrutura digital.

Juliane Pascoal, Cleytton Magalhaes, Ronnie de Souza SantosTue, 10 Ma💻 cs

On the Effectiveness of Code Representation in Deep Learning-Based Automated Patch Correctness Assessment

Este estudo realiza a primeira avaliação extensiva da eficácia de diferentes representações de código na previsão da correção de patches, demonstrando que representações baseadas em grafos superam consistentemente outras abordagens e que a integração de representações sequenciais a heurísticas melhora significativamente a detecção de patches com sobreajuste.

Quanjun Zhang, Chunrong Fang, Haichuan Hu, Yuan Zhao, Weisong Sun, Yun Yang, Tao Zheng, Zhenyu ChenTue, 10 Ma💻 cs

AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents

O artigo apresenta o AgentRaft, um novo framework automatizado que combina análise de código e raciocínio semântico para detectar e mitigar o risco de "Data Over-Exposure" (exposição excessiva de dados) em agentes de LLM, demonstrando alta eficácia na identificação de violações de privacidade em ferramentas reais.

Yixi Lin (Sun Yat-sen University, Zhuhai, Guangdong, China), Jiangrong Wu (Sun Yat-sen University, Zhuhai, Guangdong, China), Yuhong Nan (Sun Yat-sen University, Zhuhai, Guangdong, China), Xueqiang Wang (University of Central Florida, Orlando, Florida, USA), Xinyuan Zhang (Sun Yat-sen University, Zhuhai, Guangdong, China), Zibin Zheng (Sun Yat-sen University, Zhuhai, Guangdong, China)Tue, 10 Ma💻 cs

The Effect of Code Obfuscation on Human Program Comprehension

Este estudo investiga como a ofuscação de código afeta a compreensão humana em Python e JavaScript, revelando que, embora a ofuscação geralmente aumente o tempo de análise e reduza a precisão, a relação não é estritamente monotônica e varia conforme a linguagem, com a experiência do programador influenciando principalmente a familiaridade com a sintaxe específica e não a capacidade geral de programação.

Anh H. N. Nguyen, Jack Le, Ilse Lahnstein Coronado, Tien N. NguyenTue, 10 Ma💻 cs

The role of team diversity in AI systems development

Este estudo, baseado em entrevistas com profissionais de quatro equipes de IA em uma grande empresa de software no Brasil e em Portugal, revela que a diversidade de equipes desempenha um papel fundamental no desenvolvimento de sistemas de IA ao identificar vieses, promover empatia, combater discriminação sistêmica e fomentar decisões mais inclusivas e criativas.

Ronnie de Souza Santos, Maria Teresa Baldassarre, Cleyton MagalhaesTue, 10 Ma💻 cs