SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um grupo de robôs superinteligentes (chamados de Modelos de Linguagem ou LLMs) que aprendem a programar lendo milhões de livros de código. Até agora, para ver se eles eram bons, os cientistas faziam testes parecidos com provas de matemática de escola: davam um problema pequeno, isolado, e perguntavam: "O robô conseguiu escrever a resposta certa?".

O problema é que programar no mundo real não é como fazer uma prova de matemática sozinha. É como construir um prédio gigante, onde você precisa conversar com outros engenheiros, seguir regras de segurança, e lidar com materiais que mudam o tempo todo.

Aqui entra o SWINGARENA, o novo "campo de batalha" criado pelos pesquisadores para testar esses robôs de uma forma muito mais realista.

O Que é o SWINGARENA? (A Analogia da Arena de Boxe)

Pense no SWINGARENA como uma arena de boxe, mas em vez de socos, eles trocam códigos de computador e testes.

Dois Papéis, Um Jogo: Em vez de um robô trabalhando sozinho, o sistema coloca dois robôs para brigar (ou colaborar):
- O "Atacante" (Submitter): Ele recebe um problema (ex: "O botão de login não funciona") e tenta consertar o código.
- O "Defensor" (Reviewer): Ele olha o conserto do Atacante e tenta criar um teste difícil para ver se o conserto quebra algo ou se esconde um erro. É como um fiscal de obras que tenta encontrar rachaduras na parede que o pedreiro acabou de pintar.
O Árbitro (CI Pipeline): Existe um juiz automático que não deixa ninguém trapacear. Ele pega o conserto e o teste e roda em um ambiente seguro (como um laboratório isolado). Se o código der erro, o robô perde pontos. Se o teste for muito fácil ou não funcionar, o robô que criou o teste perde pontos.
O Ciclo Infinito: Eles não param na primeira tentativa. O Atacante tenta, o Defensor critica, o Atacante melhora, o Defensor tenta de novo. Isso simula exatamente como os programadores humanos trabalham em empresas grandes: enviando correções, recebendo críticas e melhorando até ficar perfeito.

O Grande Desafio: A Biblioteca Infinita

Um dos maiores problemas para esses robôs é que os projetos de software reais são gigantescos. Imagine tentar consertar um vazamento em um navio, mas você precisa procurar qual é a válvula certa em meio a 10.000 mapas diferentes espalhados por um oceano.

Se você der todo o oceano para o robô ler de uma vez, ele se afoga (o computador fica lento ou confuso).

Para resolver isso, o SWINGARENA usa um Sistema de Busca Inteligente (RACG):

É como se o robô tivesse um bibliotecário mágico.
Quando o robô precisa consertar um problema, ele pergunta ao bibliotecário: "Onde está a parte do código que lida com login?".
O bibliotecário não entrega os 10.000 mapas. Ele entrega apenas 5 páginas que são realmente importantes para aquele problema específico. Isso permite que o robô foque no que importa, sem se perder.

O Que Eles Descobriram?

Os pesquisadores testaram robôs famosos (como GPT-4, Claude, Gemini e DeepSeek) nessa arena e descobriram coisas interessantes:

Alguns são agressivos, outros são cautelosos: O robô GPT-4 é como um jogador de futebol que chuta muito forte e tenta marcar gol a qualquer custo. Ele cria correções arriscadas, mas que muitas vezes funcionam. Já o DeepSeek e o Gemini são mais como defensores: eles fazem correções mais seguras e que raramente quebram o sistema, mesmo que demorem um pouco mais.
Nenhum é perfeito: Mesmo os robôs mais inteligentes falham quando o problema exige mudar muitas partes do código ao mesmo tempo ou quando precisam entender regras de segurança complexas.
A importância do "Defensor": O robô que cria os testes (o Defensor) é tão importante quanto o que conserta. Se o Defensor for "preguiçoso" e criar testes fáceis, o Atacante ganha pontos falsos. O SWINGARENA força os robôs a serem rigorosos.

Por Que Isso Importa?

Antes, os robôs de programação eram como estudantes que tiravam 10 na prova, mas não conseguiam fazer uma redação. O SWINGARENA mostra que, para o futuro, precisamos de robôs que não só escrevam código, mas que saibam trabalhar em equipe, seguir regras e lidar com problemas grandes e complexos como um engenheiro humano faria.

Em resumo: O SWINGARENA transformou o teste de robôs de "fazer a lição de casa" para "trabalhar no dia a dia de uma empresa de tecnologia", garantindo que, quando usarmos esses robôs no futuro, eles não vão quebrar nossos softwares, mas sim ajudar a construí-los com segurança.

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

O Que é o SWINGARENA? (A Analogia da Arena de Boxe)

O Grande Desafio: A Biblioteca Infinita

O Que Eles Descobriram?

Por Que Isso Importa?

Resumo Técnico: SWINGARENA

1. O Problema

2. Metodologia

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

O Que é o SWINGARENA? (A Analogia da Arena de Boxe)

O Grande Desafio: A Biblioteca Infinita

O Que Eles Descobriram?

Por Que Isso Importa?

Resumo Técnico: SWINGARENA

1. O Problema

2. Metodologia

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance