SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

O artigo apresenta o SWE-CI, o primeiro benchmark em nível de repositório baseado no ciclo de Integração Contínua, que avalia a capacidade de agentes de LLM em manter a qualidade do código ao longo de evoluções complexas e de longo prazo, superando as limitações das abordagens estáticas de correção única.

Jialong Chen, Xander Xu, Hu Wei, Chuan Chen, Bing Zhao

Publicado 2026-03-05
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo uma casa.

A maioria dos testes de inteligência artificial (IA) para programação hoje em dia funciona assim: você entrega um plano de uma sala de estar e pede para a IA construir apenas essa sala. Se a sala ficar bonita e as portas abrirem, a IA passa no teste. Isso é como os benchmarks atuais (como o SWE-bench): eles olham para um "instantâneo" (uma foto) do trabalho.

Mas a vida real não é assim. Na vida real, você constrói a sala, depois decide mudar a cozinha, depois precisa instalar um sistema de segurança, e anos depois, a família cresce e você precisa adicionar um segundo andar. O problema é que, se a IA construiu a sala de estar de um jeito frágil e mal planejado, adicionar o segundo andar pode fazer a casa inteira desmoronar.

O que é o SWE-CI?

Os autores deste paper criaram o SWE-CI, que é como um "simulador de vida real" para IAs de programação. Em vez de pedir para a IA construir apenas uma sala, eles dizem: "Aqui está uma casa que existe há 233 dias. Ela passou por 71 reformas. Sua tarefa é continuar reformando essa casa por mais um tempo, mantendo tudo funcionando, sem derrubar o telhado".

Aqui estão os conceitos principais, explicados de forma simples:

1. O Problema: A Ilusão da "Reparação Rápida"

Imagine um mecânico de carros.

  • O teste antigo: O carro não liga. O mecânico dá um tapa no painel e o carro liga. Teste aprovado!
  • O problema: O mecânico usou fita adesiva e pregos. Daqui a uma semana, o carro quebra de novo, e dessa vez é pior.
  • A realidade: Um bom mecânico (ou um bom programador) não apenas faz o carro ligar agora; ele conserta o motor de forma que ele continue funcionando daqui a 6 meses, mesmo com novas peças sendo adicionadas.

O SWE-CI quer testar se a IA é um "mecânico de fita adesiva" ou um "engenheiro de verdade".

2. A Solução: O Ciclo de "Construção Contínua"

O SWE-CI não deixa a IA trabalhar sozinha de uma vez só. Eles criaram um sistema de dois agentes (dois robôs trabalhando juntos), como se fosse uma equipe de arquitetura e construção:

  • O Arquiteto (Architect): Ele olha para a casa, vê o que falta (ex: "precisamos de uma janela maior") e escreve um plano de alto nível. Ele não mexe nos tijolos, ele apenas diz o que precisa ser feito.
  • O Programador (Programmer): Ele pega o plano do Arquiteto e começa a construir. Ele coloca os tijolos, pinta a parede e instala a janela.

Depois que o Programador termina, eles testam. Se algo quebrar, o Arquiteto analisa o erro, faz um novo plano e o Programador tenta de novo. Eles fazem isso em várias rodadas (como um ciclo de "Construção Contínua" ou Continuous Integration), simulando meses de trabalho real.

3. A Pontuação: "EvoScore" (Pontuação de Evolução)

Como eles sabem se a IA é boa? Eles não olham apenas se o código funciona no final. Eles olham para como a IA construiu.

  • Se a IA faz um conserto rápido que quebra tudo na próxima rodada, ela perde pontos.
  • Se a IA faz um trabalho limpo que facilita as próximas reformas, ela ganha pontos extras.

É como se você avaliasse um aluno não apenas pela nota da prova de hoje, mas por quão fácil é para ele aprender a matéria do ano que vem. Se ele estudou "decoreba", ele vai falhar no futuro. Se ele entendeu a lógica, ele vai brilhar.

4. O Que Eles Descobriram?

Eles testaram 18 IAs diferentes e descobriram coisas interessantes:

  1. Elas estão melhorando: As IAs mais novas estão ficando muito boas em manter códigos por longos períodos, muito melhor que as antigas.
  2. Elas têm "personalidades" diferentes: Algumas IAs (como as da Anthropic/Claude) são mais cuidadosas e pensam no longo prazo. Outras (como algumas da Kimi ou GLM) tendem a ser mais rápidas, mas cometem mais erros que quebram o código no futuro (como usar a fita adesiva).
  3. O maior desafio é o "Efeito Dominó": O maior problema das IAs hoje é o regressão. Isso significa que, ao tentar consertar uma coisa nova, elas quebram algo que já funcionava. Em testes de longo prazo, a maioria das IAs falha em evitar isso. É como tentar adicionar uma nova janela e, sem querer, fazer a parede inteira desabar.

Resumo Final

O SWE-CI é um novo "campo de provas" que diz: "Não basta fazer o código funcionar agora. Mostre-me que você consegue cuidar desse código por meses, fazendo mudanças constantes sem estragar nada".

É a diferença entre um consertador de emergência e um engenheiro de software sênior. O paper mostra que as IAs estão evoluindo rápido, mas ainda precisam aprender a pensar no futuro antes de colocar o primeiro tijolo.