Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software

Este artigo apresenta o FSTab, uma abordagem de ataque em caixa preta que identifica e avalia a persistência de vulnerabilidades recorrentes em softwares gerados por LLMs, demonstrando que modelos de ponta como GPT-5.2 e Claude-4.5 Opus reproduzem falhas previsíveis com alta taxa de sucesso mesmo em domínios não vistos durante o treinamento.

Tomer Kordonsky, Maayan Yamin, Noam Benzimra, Amit LeVi, Avi Mendelson

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo uma casa usando um arquiteto robótico superinteligente (uma IA de geração de código). Você pede a ele: "Faça uma porta para entrar" ou "Crie um sistema para pagar contas". O robô é rápido e faz o trabalho, mas ele tem um defeito curioso: ele é previsível.

Sempre que você pede "porta", ele usa o mesmo modelo de fechadura, que tem um defeito de fábrica. Sempre que você pede "pagamento", ele usa o mesmo cofre, que tem uma dobradiça frágil. O problema é que, como o robô é tão rápido, ele constrói milhares de casas usando esses mesmos modelos defeituosos.

Este artigo de pesquisa é como um detetive particular que descobriu como explorar essa previsibilidade.

Aqui está a explicação do que eles descobriram, usando analogias simples:

1. O Problema: A "Firma" do Robô

Quando os robôs (IAs como GPT, Claude, Gemini) escrevem código, eles não pensam como humanos. Eles seguem padrões estatísticos. Se eles aprenderam a fazer um "botão de login" de uma maneira insegura uma vez, é muito provável que eles façam milhares de botões de login inseguros exatamente da mesma maneira.

Os pesquisadores chamam isso de "Vulnerabilidade Recorrente". É como se o robô tivesse um "taco de golfe" com um defeito específico: toda vez que ele usa esse taco para bater na bola, a bola vai para o mesmo lugar errado.

2. A Solução: A "Tabela de Decodificação" (FSTab)

Os autores criaram uma ferramenta chamada FSTab (Tabela de Recurso-Segurança). Pense nela como um dicionário de detetive ou um mapa do tesouro.

  • Como funciona: O detetive olha apenas para a frente da casa (o que o usuário vê no site: botões, formulários, menus).
  • A Mágica: Com base apenas no que ele vê na frente, a tabela diz: "Ei, se esse site tem um botão 'Login' feito pelo robô X, é 94% de chance de que a porta dos fundos (o servidor) tenha uma fechadura quebrada."

O incrível é que o detetive não precisa entrar na casa nem ver os planos originais (o código fonte). Ele só precisa saber qual robô construiu o site e o que o site faz.

3. O Ataque: "Adivinhando o Invisível"

Imagine que você é um ladrão. Em vez de tentar arrombar cada porta de cada casa da cidade (o que levaria anos), você usa a tabela FSTab.

  1. Você vê que o site tem um "Formulário de Cadastro".
  2. Você consulta a tabela do robô que fez o site.
  3. A tabela diz: "Ah, robôs desse tipo sempre deixam uma janela aberta no formulário de cadastro".
  4. Você vai direto para essa janela e entra.

Isso é o que chamam de Ataque de Caixa-Preta. Você não sabe como a casa foi construída por dentro, mas sabe exatamente onde estão as falhas porque conhece a "personalidade" do construtor.

4. A Descoberta Chocante: "Universalidade"

O estudo descobriu algo assustador: essas falhas não dependem do tipo de site.

  • Se o robô faz um site de e-commerce com uma falha no carrinho de compras, ele provavelmente fará a mesma falha em um site de blog ou em um sistema interno de empresa.

É como se o robô tivesse um "vício" em usar fechaduras ruins. Não importa se é uma casa, um escritório ou uma loja; se ele faz uma porta, ele usa a mesma fechadura defeituosa. Isso significa que um atacante pode estudar um tipo de site e usar esse conhecimento para invadir qualquer outro tipo de site feito pelo mesmo robô.

5. Por que isso importa?

  • Para os Desenvolvedores: Eles precisam parar de confiar cegamente que a IA está segura só porque o código "parece" funcionar. Eles precisam verificar se o robô está usando seus "vícios" inseguros.
  • Para a Segurança: Estamos criando um novo tipo de risco. Não é apenas um hacker tentando quebrar um código difícil; é um hacker usando a previsibilidade da própria IA contra nós.
  • A Metáfora Final: É como se a IA fosse um cozinheiro que sempre coloca sal demais na sopa. Se você sabe que ele é o cozinheiro, você não precisa provar a sopa inteira para saber que ela está salgada. Você só precisa olhar para o nome dele na porta da cozinha.

Resumo em uma frase

Os pesquisadores criaram um mapa que permite que hackers prevejam onde estão as falhas de segurança em softwares feitos por IAs, apenas olhando para o que o usuário vê na tela, porque essas IAs repetem os mesmos erros de construção como se fossem um "padrão de fábrica" inevitável.