Deja Vu at Scale: Paraphrase-Robust Detection of… — Explicação em linguagem simples

Imagine que você é o editor de um livro de receitas colaborativo e massivo. Milhares de chefs de diferentes cozinhas contribuíram com receitas. Com o tempo, você percebe um problema: as mesmas instruções aparecem repetidamente, apenas escritas de forma ligeiramente diferente.

Um chef escreve: "Add two cups of flour."
Outro escreve: "Add 2 cups of flour."
Um terceiro escreve: "Put in 2 cups of flour."

No mundo dos testes de software, essas instruções são chamadas de passos Gherkin. Elas são as "receitas" que dizem a um computador como testar um software. O problema é que, quando essas instruções são duplicadas ou levemente parafraseadas, torna-se um pesadelo de manutenção. Se você precisar alterar um passo (como mudar de "Adicionar farinha" para "Adicionar farinha de amêndoas"), pode ter que caçar e editar milhares de cópias em vez de apenas uma.

Este artigo, intitulado "Déjà Vu at Scale," trata da construção de uma ferramenta superinteligente para encontrar esses duplicados, mesmo quando são escritos de formas ligeiramente diferentes, e da criação de uma biblioteca gigante de exemplos para provar que a ferramenta funciona.

Aqui está a divisão do que eles fizeram, usando analogias simples:

1. O Problema: O Efeito "Déjà Vu"

Os autores descobriram que, no mundo do software, a duplicação está em toda parte. Eles analisaram 347 projetos de software diferentes (como 347 livros de receitas diferentes) e encontraram mais de 1,1 milhão de instruções.

O Dado: Eles descobriram que 80% dessas instruções eram cópias exatas de algo mais.
A Dor: Se uma empresa quiser corrigir um erro de digitação ou mudar uma regra, ela pode ter que editar milhares de arquivos. É como tentar atualizar uma receita em um livro de receitas onde essa receita está escrita em 1.000 páginas diferentes em 1.000 livros diferentes.

2. A Solução: Um "Bibliotecário Inteligente"

Os autores construíram uma ferramenta chamada cukereuse. Pense nesta ferramenta como um superbibliotecário que consegue ler as instruções e entender que "Add 2 cups" e "Add two cups" são a mesma coisa, mesmo que a grafia ou o espaçamento sejam diferentes.

Eles não usaram apenas um truque; eles usaram um sistema de defesa de quatro camadas para capturar duplicatas:

A Correspondência Exata: Se duas instruções forem idênticas até o último caractere (como duas fotocópias), ela as captura instantaneamente.
A Correspondência "Quase": Se as instruções forem 90% iguais (como "Add 2 cups" vs "Add two cups"), ela também as captura.
A Correspondência de "Significado": Esta é a parte inteligente. Ela usa IA (chamada de Sentence Transformers) para entender o significado. Ela sabe que "The user clicks the button" e "Clicking the button by the user" significam a mesma coisa, mesmo que as palavras sejam totalmente diferentes.
O Híbrido: Ela combina as verificações "Quase" e de "Significado" para ser extra cautelosa.

3. A Prova: O Teste do "Padrão de Ouro"

Para provar que o bibliotecário deles era realmente bom, eles não apenas adivinharam. Eles criaram um conjunto de testes gigante:

Eles pegaram 1.020 pares de instruções.
Três pessoas diferentes (os autores) leram manualmente e decidiram: "Estes são duplicados ou não?"
Eles garantiram que todos concordassem com as respostas (uma pontuação alta chamada Fleiss' κ = 0.84, que é como uma equipe de juízes concordando sobre quem venceu um concurso).
O Resultado: Sua ferramenta de "Correspondência de Significado" foi muito boa, mas a ferramenta de "Correspondência Quase" foi a mais confiável e honesta, identificando corretamente os duplicados cerca de 82% das vezes sem se confundir com as regras do teste.

4. A Grande Descoberta: A Economia de "Consolidação"

A parte mais emocionante do artigo é a matemática que eles fizeram sobre as economias.

Eles descobriram que, em um projeto de software típico, você poderia deletar cerca de 62,5% das instruções duplicadas e substituí-las por apenas uma instrução "mestre".
A Analogia: Imagine que você tem 100 páginas de um livro de receitas. Após usar esta ferramenta, você percebe que só precisa de 37 páginas únicas. As outras 63 páginas são apenas cópias. Você pode jogá-las fora, tornando o livro muito mais fino e fácil de gerenciar.
Eles vincularam isso à ISO/IEC 25010, que é basicamente um conjunto de regras globiais para "bom software". Eles mostraram que limpar esses duplicados torna o software mais fácil de mudar (Manutenibilidade) e menos propenso a quebrar (Confiabilidade).

5. O Que Eles Lançaram para o Mundo

Os autores não guardaram suas descobertas para si mesmos. Eles lançaram um "kit inicial" para qualquer pessoa que queira realizar esta pesquisa:

Os Dados: Uma coleção massiva de 1,1 milhão de instruções do mundo real de projetos de software públicos.
O Teste: Os 1.020 pares de instruções com as respostas do "padrão de ouro".
A Ferramenta: O próprio código do software (cukereuse) que encontra os duplicados.
As Regras: Um guia sobre como eles decidiram o que conta como um duplicado.

Resumo

Em resumo, este artigo diz: "As instruções de teste de software estão cheias de duplicatas desnecessárias, tornando-as difíceis de gerenciar. Construímos uma ferramenta inteligente que encontra esses duplicados (mesmo quando são escritos de forma diferente), provamos que funciona com um teste massivo e de alta qualidade, e mostramos que corrigir isso pode poupar às equipes de software uma enorme quantidade de tempo e esforço. Estamos entregando todas as nossas ferramentas e dados gratuitamente para que outros possam usá-los."

O que eles NÃO alegaram:

Eles não disseram exatamente quanto dinheiro isso economiza (porque cada empresa paga seus trabalhadores de forma diferente).
Eles não disseram que isso resolve todos os problemas de qualidade de software, apenas o problema específico de instruções duplicadas.
Eles não alegaram que sua ferramenta funciona em dados privados e secretos de empresas (já que analisaram apenas dados públicos).

Resumo Técnico: Déjà Vu em Escala

Problema
Suítes de Desenvolvimento Baseado em Comportamento (BDD), escritas na linguagem Gherkin, frequentemente acumulam duplicação de texto de passos (steps). Pesquisas anteriores estabelecem que tal duplicação acarreta custos significativos de manutenção, particularmente quando as definições de passos exigem renomeação ou refatoração em múltiplas ocorrências. As técnicas de detecção existentes sofrem de limitações críticas: abordagens dinâmicas (ex: Binamungu et al., 2018–2023) exigem suítes de testes executáveis, tornando-as inviáveis para a escala entre repositórios; abordagens estáticas (ex: Irshad et al., 2020–2022) são frequentemente confinadas a uma única organização ou carecem de granularidade ao nível de passo. Consequentemente, há uma lacuna para um detector de passos puramente estático, robusto a paráfrases e aplicável a qualquer repositório, acompanhado de um benchmark público para calibração.

Metodologia
Os autores apresentam o cukereuse, uma ferramenta de análise estática e o estudo empírico associado. A metodologia é estruturada em torno de três componentes principais:

Construção do Corpus:
- Descoberta: Utilizando a API de busca do GitHub REST, os autores identificaram repositórios contendo arquivos Gherkin, filtrando por aqueles com $\ge$ 10 estrelas e excluindo projetos arquivados.
- Materialização: 347 repositórios foram clonados de forma esparsa (sparse-cloned), resultando em 23.667 arquivos .feature analisados sintaticamente e 1.113.616 passos Gherkin.
- Definição de Identidade: A identidade de um passo é definida como o hash BLAKE2b de seu texto com espaços colapsados, excluindo palavras-chave (Given/When/Then) e argumentos anexados (DocStrings/DataTables), mas retendo parâmetros e literais. Isso espelha a lógica de resolução do tempo de execução do Cucumber.
Estratégias de Detecção:
A ferramenta sobrepõe quatro estratégias ao longo de uma fronteira de precisão/custo computacional:
- Exata: Hashing BLAKE2b em texto normalizado.
- Quase-Exata: Razão de Levenshtein normalizada.
- Semântica: Similaridade de cosseno de Sentence-BERT (SBERT).
- Híbrida: Uma combinação de cosseno SBERT e uma guarda de banda de Levenshtein para filtrar ruído.
Avaliação e Benchmarking:
- Benchmark Rotulado: Um conjunto de dados de 1.020 pares de passos foi rotulado manualmente por três autores utilizando uma rubrica compartilhada (Fleiss' $\kappa$ = 0,84 em uma sobreposição de 60 pares).
- Controle de Circularidade: Para abordar a ameaça de regras de rubrica baseadas em pontuação (R1–R3) enviesarem o detector, uma introduziu-se um protocolo de relabeling de segunda passagem "livre de pontuação". Este protocolo utiliza regras determinísticas de reescrita de texto (ex: identidade de multiconjunto de tokens, contenção de subsequência) sem acessar pontuações de similaridade.
- Baselines: O estudo compara as estratégias propostas contra duas baselines lexicais clássicas: Jaccard de conjunto de tokens (estilo SourcererCC) e cosseno de n-grama de caracteres TF-IDF (estilo NiCad).

Principais Contribuições

Maior Corpus Interorganizacional: Um conjunto de dados de 1,1 milhão de passos Gherkin em 347 repositórios, lançado com tags de licença SPDX e uma ficha técnica (datasheet) no estilo Gebru.
Primeiro Benchmark Público de BDD: Um benchmark rotulado de 1.020 pares com alta concordância entre anotadores, projetado especificamente para calibrar detectores de duplicação.
Protocolo de Relabeling Livre de Pontuação: Uma contribuição metodológica para limitar a circularidade entre detectores baseados em pontuação e rubricas de avaliação baseadas em pontuação.
Modelo de Economia de Consolidação: Um modelo quantitativo que mapeia clusters detectados para características de qualidade ISO/IEC 25010 (especificamente subcaracterísticas de manutenibilidade como modificabilidade e reusabilidade).
Ferramental Open Source: A ferramenta cukereuse, o pipeline de análise e todos os artefatos são lançados sob licenças permissivas.

Resultados

Prevalência de Duplicação: A taxa de duplicata exata ponderada por passo é de 80,2%. O repositório mediano possui uma taxa de duplicação de 58,6%. O cluster híbrido mais frequente ("the response status is 200 OK") aparece 20.737 vezes em 2.245 arquivos.
Desempenho de Detecção:
- Sob a rubrica primária, a estratégia semântica alcançou um F1 de 0,906, mas isso foi identificado como um artefato de estratificação (recall = 1,000 devido às regras da rubrica).
- Sob o relabeling livre de pontuação (a métrica "honesta"), a estratégia quase-exata (Levenshtein) teve o melhor desempenho com um F1 de 0,822.
- A estratégia semântica caiu para F1 = 0,772 sob rótulos livres de pontuação, enquanto as baselines lexicais atingiram F1 = 0,761 (Jaccard) e 0,799 (TF-IDF).
Potencial de Consolidação: O modelo estima que 893.357 ocorrências de texto de passo (aprox. 80% do corpus) são passíveis de consolidação sob correspondência exata. Em um repositório mediano, 62,5% das linhas de passo são elimináveis.

Significância e Alegações
O artigo afirma fechar uma lacuna específica e mensurável nas ferramentas de qualidade de BDD ao fornecer o primeiro detector de passos duplicados, estático, robusto a paráfrases e interorganizacional. A significância não reside em alegar resolver todos os problemas de qualidade de BDD, mas em fornecer os artefatos empíricos necessários (corpus, benchmark e ferramenta) para permitir pesquisas futuras e aplicação prática.

Os autores declaram explicitamente que os clusters detectados mapeiam para as subcaracterísticas de manutenibilidade da ISO/IEC 25010 (modificabilidade, modularidade, reusabilidade, analisabilidade, testabilidade) e indiretamente para confiabilidade via prevenção de drift. No entanto, o artigo mantém a modéstia quanto ao impacto econômico: ele quantifica a "superfície eliminável" (linhas de texto), mas não traduz esses números em economia monetária ou horas-pessoa, observando que tal tradução requer calibração de custo específica da organização, o que está fora do escopo dos dados liberados. O trabalho serve como um benchmark fundamental e um conjunto de ferramentas para a comunidade replicar, estender e aplicar em seus próprios códigos.

Deja Vu at Scale: Paraphrase-Robust Detection of Duplicate Gherkin Steps in Behaviour-Driven Software Testing with Sentence-Transformer Embeddings and a 1.1M-Step Open Benchmark