Each language version is independently generated for its own context, not a direct translation.
Imagine que você está construindo uma casa.
A maioria dos testes de inteligência artificial (IA) para programação hoje em dia funciona assim: você entrega um plano de uma sala de estar e pede para a IA construir apenas essa sala. Se a sala ficar bonita e as portas abrirem, a IA passa no teste. Isso é como os benchmarks atuais (como o SWE-bench): eles olham para um "instantâneo" (uma foto) do trabalho.
Mas a vida real não é assim. Na vida real, você constrói a sala, depois decide mudar a cozinha, depois precisa instalar um sistema de segurança, e anos depois, a família cresce e você precisa adicionar um segundo andar. O problema é que, se a IA construiu a sala de estar de um jeito frágil e mal planejado, adicionar o segundo andar pode fazer a casa inteira desmoronar.
O que é o SWE-CI?
Os autores deste paper criaram o SWE-CI, que é como um "simulador de vida real" para IAs de programação. Em vez de pedir para a IA construir apenas uma sala, eles dizem: "Aqui está uma casa que existe há 233 dias. Ela passou por 71 reformas. Sua tarefa é continuar reformando essa casa por mais um tempo, mantendo tudo funcionando, sem derrubar o telhado".
Aqui estão os conceitos principais, explicados de forma simples:
1. O Problema: A Ilusão da "Reparação Rápida"
Imagine um mecânico de carros.
- O teste antigo: O carro não liga. O mecânico dá um tapa no painel e o carro liga. Teste aprovado!
- O problema: O mecânico usou fita adesiva e pregos. Daqui a uma semana, o carro quebra de novo, e dessa vez é pior.
- A realidade: Um bom mecânico (ou um bom programador) não apenas faz o carro ligar agora; ele conserta o motor de forma que ele continue funcionando daqui a 6 meses, mesmo com novas peças sendo adicionadas.
O SWE-CI quer testar se a IA é um "mecânico de fita adesiva" ou um "engenheiro de verdade".
2. A Solução: O Ciclo de "Construção Contínua"
O SWE-CI não deixa a IA trabalhar sozinha de uma vez só. Eles criaram um sistema de dois agentes (dois robôs trabalhando juntos), como se fosse uma equipe de arquitetura e construção:
- O Arquiteto (Architect): Ele olha para a casa, vê o que falta (ex: "precisamos de uma janela maior") e escreve um plano de alto nível. Ele não mexe nos tijolos, ele apenas diz o que precisa ser feito.
- O Programador (Programmer): Ele pega o plano do Arquiteto e começa a construir. Ele coloca os tijolos, pinta a parede e instala a janela.
Depois que o Programador termina, eles testam. Se algo quebrar, o Arquiteto analisa o erro, faz um novo plano e o Programador tenta de novo. Eles fazem isso em várias rodadas (como um ciclo de "Construção Contínua" ou Continuous Integration), simulando meses de trabalho real.
3. A Pontuação: "EvoScore" (Pontuação de Evolução)
Como eles sabem se a IA é boa? Eles não olham apenas se o código funciona no final. Eles olham para como a IA construiu.
- Se a IA faz um conserto rápido que quebra tudo na próxima rodada, ela perde pontos.
- Se a IA faz um trabalho limpo que facilita as próximas reformas, ela ganha pontos extras.
É como se você avaliasse um aluno não apenas pela nota da prova de hoje, mas por quão fácil é para ele aprender a matéria do ano que vem. Se ele estudou "decoreba", ele vai falhar no futuro. Se ele entendeu a lógica, ele vai brilhar.
4. O Que Eles Descobriram?
Eles testaram 18 IAs diferentes e descobriram coisas interessantes:
- Elas estão melhorando: As IAs mais novas estão ficando muito boas em manter códigos por longos períodos, muito melhor que as antigas.
- Elas têm "personalidades" diferentes: Algumas IAs (como as da Anthropic/Claude) são mais cuidadosas e pensam no longo prazo. Outras (como algumas da Kimi ou GLM) tendem a ser mais rápidas, mas cometem mais erros que quebram o código no futuro (como usar a fita adesiva).
- O maior desafio é o "Efeito Dominó": O maior problema das IAs hoje é o regressão. Isso significa que, ao tentar consertar uma coisa nova, elas quebram algo que já funcionava. Em testes de longo prazo, a maioria das IAs falha em evitar isso. É como tentar adicionar uma nova janela e, sem querer, fazer a parede inteira desabar.
Resumo Final
O SWE-CI é um novo "campo de provas" que diz: "Não basta fazer o código funcionar agora. Mostre-me que você consegue cuidar desse código por meses, fazendo mudanças constantes sem estragar nada".
É a diferença entre um consertador de emergência e um engenheiro de software sênior. O paper mostra que as IAs estão evoluindo rápido, mas ainda precisam aprender a pensar no futuro antes de colocar o primeiro tijolo.