From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

Este estudo apresenta uma quasi-experimentação humana que demonstra que, embora os modelos de linguagem (LLMs) possam gerar especificações comportamentais Gherkin a partir de regulamentos de segurança alimentar com alta relevância e clareza, a ocorrência de omissões e alucinações exige uma revisão humana sistemática, especialmente em domínios críticos.

Shabnam Hassani, Mehrdad Sabetzadeh, Daniel Amyot

Publicado Thu, 12 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um cozinheiro tentando seguir uma receita muito antiga e escrita em uma linguagem complicada, cheia de termos jurídicos e burocráticos. O problema é que essa receita precisa ser transformada em um passo a passo claro para um robô cozinheiro, senão o robô pode queimar a comida ou envenenar o cliente.

Esse é exatamente o desafio que os autores deste artigo tentaram resolver. Vamos traduzir a "ciência" deles para uma linguagem do dia a dia:

O Grande Problema: A Barreira da "Tradução"

As leis sobre segurança alimentar (como as do Canadá, onde o estudo foi feito) são escritas de forma genérica para durar para sempre. Elas não falam sobre "software" ou "robôs". Elas dizem coisas como: "Ovos líquidos devem ter menos de 50.000 bactérias por grama".

Transformar essa frase de lei em uma instrução de software (algo que um computador entenda e teste automaticamente) é como tentar traduzir um poema de Shakespeare para uma linguagem de programação. É difícil, demorado e cheio de erros se feito à mão.

A Solução Mágica: Os "Robôs de Texto" (LLMs)

Os pesquisadores decidiram testar se a Inteligência Artificial (especificamente dois modelos famosos: Claude e Llama) consegue fazer essa tradução sozinha.

Eles queriam ver se a IA podia pegar a lei chata e transformá-la em algo chamado Gherkin.

  • O que é Gherkin? Pense nele como um "idioma de receitas" para robôs. Em vez de código complicado, ele usa frases simples como: "DADO que o ovo está na geladeira, QUANDO eu o peso, ENTÃO ele deve ter menos de 50.000 bactérias". É fácil para humanos lerem e fáceis para máquinas testarem.

O Experimento: A Prova de Sabor

Para saber se a IA estava fazendo um bom trabalho, eles não apenas olharam para o texto. Eles organizaram um "degustação" com 10 especialistas (estudantes e profissionais de tecnologia).

  1. A Tarefa: A IA gerou 60 dessas "receitas robóticas" (especificações) baseadas em leis reais de segurança alimentar.
  2. O Jogo de Duplas: Cada "receita" foi lida por duas pessoas diferentes, que deram notas de 0 a 5 em cinco categorias:
    • Relevância: A receita fala sobre o que a lei manda?
    • Clareza: É fácil de entender ou é um "babilês"?
    • Completude: Falta algum ingrediente ou passo?
    • Singularidade: Cada receita foca em uma coisa só, ou mistura tudo? (Ex: não misturar "pesar o ovo" com "verificar a cor" na mesma instrução).
    • Economia de Tempo: Isso economizaria tempo se um humano tivesse que escrever do zero?

O Que Eles Descobriram? (O Resultado da Prova)

1. A IA é um ótimo "Auxiliar de Cozinha" (mas não o Chef)
As notas foram altíssimas! Em média, as receitas geradas pela IA foram consideradas muito relevantes, claras e completas. A maioria dos especialistas disse que usar a IA economizou muito tempo.

  • A analogia: É como pedir para um assistente de cozinha rascunhar a lista de compras. Ele acerta 95% do que você precisa.

2. As Duas IAs (Claude e Llama) são muito parecidas
Não houve uma grande diferença entre elas. Ambas fizeram um trabalho excelente, com pequenas variações de estilo, mas nenhuma foi claramente superior à outra.

3. O Perigo Oculto: Alucinações e Omissões
Aqui está o ponto mais importante. Embora a IA fosse boa, ela não era perfeita.

  • Alucinações: Às vezes, a IA inventava coisas que a lei não dizia. Exemplo: A lei falava sobre medir o peso do ovo, e a IA escreveu que o sistema deveria "exibir um alerta vermelho na tela". A lei nunca mencionou uma tela! Isso é perigoso porque o robô faria algo que não precisava.
  • Omissões: Às vezes, a IA esquecia um detalhe crucial. Exemplo: Esquecer de mencionar que o ovo deve ser medido a 20 graus Celsius. Se o robô ignorar isso, a comida pode estragar.
  • Mistura de Intenções: Às vezes, a IA juntava duas regras diferentes em uma única instrução, tornando tudo confuso.

A Lição Principal: O Humano no Comando

O estudo conclui que a Inteligência Artificial é fantástica para fazer o rascunho inicial. Ela pega a lei difícil e a transforma em algo legível em segundos.

PORÉM, você nunca pode confiar cegamente nela, especialmente em áreas onde vidas estão em jogo (como segurança alimentar).

  • A Metáfora Final: Pense na IA como um estagiário muito inteligente e rápido. Ele escreve o relatório em 5 minutos e a gramática está perfeita. Mas, se você não revisar o que ele escreveu, ele pode inventar dados ou esquecer uma regra importante. O Chefe (o humano) precisa revisar, corrigir os erros e garantir que tudo está seguro antes de enviar para o cliente.

Resumo em uma frase: A IA é uma ferramenta poderosa para acelerar o trabalho de transformar leis em software, mas ela precisa de um "olho humano" experiente para garantir que ninguém fique doente por causa de um erro de tradução.