Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

Este artigo apresenta a primeira avaliação multidimensional da influência acadêmica e da qualidade do código em 31 benchmarks de segurança de LLM, revelando que, embora os benchmarks não superem artigos não-benchmark em citações, existe uma desconexão crítica entre a proeminência dos autores e a qualidade do código, evidenciando a necessidade urgente de melhorar a reprodutibilidade e as considerações éticas nos repositórios.

Junjie Chu, Xinyue Shen, Ye Leng, Michael Backes, Yun Shen, Yang Zhang2026-03-06🔒 cs.CR

iScript: A Domain-Adapted Large Language Model and Benchmark for Physical Design Tcl Script Generation

O artigo apresenta o iScript, um modelo de linguagem adaptado ao domínio de design físico e um benchmark correspondente, que superam os modelos de linguagem gerais na geração de scripts Tcl para o EDA ao utilizar um pipeline de síntese de dados multiestágio e uma estratégia de treinamento em duas etapas para mitigar a escassez de dados e garantir alta confiabilidade.

Ning Xu, Zhaoyang Zhang, Senlin Shu + 10 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Este artigo apresenta o "Vibe Code Bench", um novo benchmark que avalia a capacidade de 16 modelos de IA de desenvolver aplicações web completas do zero, revelando que, apesar dos avanços, a geração confiável de software end-to-end ainda é um desafio significativo e depende criticamente de estratégias como auto-teste e de protocolos rigorosos de avaliação humana.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Behaviour Driven Development Scenario Generation with Large Language Models

Este artigo avalia o desempenho de três modelos de linguagem (GPT-4, Claude 3 e Gemini) na geração automática de cenários de Desenvolvimento Orientado a Comportamento (BDD) a partir de um conjunto de dados de 500 histórias de usuário, revelando que, embora o GPT-4 apresente maior similaridade textual, o Claude 3 produz cenários de maior qualidade segundo especialistas humanos e avaliadores de IA, além de identificar que a qualidade da entrada, técnicas de *prompting* específicas e configurações de temperatura zero são determinantes para o sucesso da geração.

Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei2026-03-06💻 cs

Public Sector Open Source Program Offices - Archetypes for how to Grow (Common) Institutional Capabilities

Este estudo qualitativo analisa 16 casos de Escritórios de Programas de Código Aberto (OSPOs) no setor público europeu para identificar seis arquétipos organizacionais e oferecer diretrizes práticas sobre como desenvolver capacidades institucionais que promovam a adoção estratégica de software de código aberto, a soberania digital e a interoperabilidade dos serviços públicos.

Johan Linåker, Astor Nummelin Carlberg, Ciaran O'Riordan2026-03-06💻 cs

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

O artigo apresenta o RepoLaunch, o primeiro agente capaz de automatizar a resolução de dependências, compilação e extração de resultados de testes em repositórios de código de qualquer linguagem e plataforma, permitindo a criação escalável de conjuntos de dados para treinamento e avaliação de agentes de engenharia de software.

Kenan Li, Rongzhi Li, Linghao Zhang + 17 more2026-03-06🤖 cs.LG

Why Do You Contribute to Stack Overflow? Understanding Cross-Cultural Motivations and Usage Patterns before the Age of LLMs

Este estudo investiga as motivações e padrões de uso dos contribuidores do Stack Overflow antes da era dos LLMs, revelando diferenças culturais significativas entre os Estados Unidos, China e Rússia, onde os norte-americanos tendem a focar na autopromoção enquanto os chineses priorizam o aprendizado, com implicações para estratégias de participação cruzada na engenharia de software.

Sherlock A. Licorish, Elijah Zolduoarrati, Tony Savarimuthu + 3 more2026-03-06💻 cs

A framework for assessing the capabilities of code generation of constraint domain-specific languages with large language models

Este artigo propõe um framework genérico para avaliar a capacidade de modelos de linguagem em gerar código de linguagens de domínio específico (DSLs) baseadas em restrições, como OCL e Alloy, demonstrando que, embora seu desempenho seja inferior ao de linguagens gerais como Python, técnicas como reparo de código e múltiplas tentativas podem melhorar significativamente a qualidade dos resultados.

David Delgado, Lola Burgueño, Robert Clarisó2026-03-06💻 cs

Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation

Este estudo apresenta a primeira avaliação empírica em larga escala da geração de testes unitários por modelos de linguagem (LLMs), demonstrando que, embora técnicas de raciocínio como GToT melhorem a confiabilidade e a legibilidade em comparação com métodos baseados em busca, as altas taxas de falhas de compilação e defeitos de manutenção exigem abordagens híbridas para resultados prontos para produção.

Wendkûuni C. Ouédraogo, Kader Kaboré, Yinghua Li + 5 more2026-03-05💻 cs