Towards Realistic Guarantees: A Probabilistic Certificate for SmoothLLM

Este trabalho apresenta um novo quadro probabilístico "(k, ε\varepsilon)-instável" que supera as limitações da defesa SmoothLLM ao fornecer garantias de segurança mais realistas e fundamentadas em dados contra uma ampla gama de ataques de jailbreaking em LLMs.

Adarsh Kumarappan, Ayushi Mehrotra

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um guarda-costas muito forte para proteger um segredo valioso (o modelo de Inteligência Artificial). Esse guarda-costas, chamado SmoothLLM, foi criado para impedir que pessoas mal-intencionadas ("jailbreakers") enganem o sistema e façam o modelo dizer coisas perigosas.

O problema é que o método original desse guarda-costas funcionava com uma lógica muito rígida e, na prática, um pouco ingênua. Vamos usar uma analogia para entender o que os autores deste artigo fizeram para consertar isso.

O Problema: O Guarda-Costas "Tudo ou Nada"

O método antigo funcionava assim:

"Se um atacante tentar mudar 3 letras ou mais de uma mensagem secreta, o ataque vai falhar 100% das vezes. Não existe exceção."

Isso é como se o guarda-costas dissesse: "Se você mudar a senha de '1234' para '1235', eu sei que você é um intruso e bloqueio tudo. Mas se você mudar para '1236', eu também bloqueio. Se mudar 3 letras, é impossível passar."

Por que isso é um problema?
Na vida real, os hackers são espertos. Às vezes, mudar 3 letras não é suficiente para quebrar o ataque. O ataque pode ser tão forte que, mesmo com algumas letras trocadas, ele ainda funciona. O método antigo ignorava essa realidade e prometia uma segurança que, às vezes, não existia. Era como prometer que um cofre é indestrutível, mas na verdade, ele só resiste a um martelo de brinquedo.

A Solução: O Guarda-Costas "Probabilístico e Realista"

Os autores deste trabalho (Adarsh e Ayushi) disseram: "Vamos ser mais honestos. Vamos admitir que, às vezes, mesmo mudando várias letras, o ataque pode ainda funcionar, mas isso é muito raro."

Eles criaram um novo conceito chamado "(k, ε)-instável". Vamos traduzir isso para a vida real:

  • k (k): É o número de letras que você decide mudar para tentar quebrar o ataque. Digamos que você decida mudar 10 letras.
  • ε (épsilon): É a chance de que, mesmo mudando essas 10 letras, o ataque ainda funcione. Em vez de ser 0% (impossível), pode ser 5% ou 10%.

A nova promessa do guarda-costas:

"Se você mudar 10 letras ou mais, o ataque vai falhar com 95% de certeza. Existe uma pequena chance de 5% de ele funcionar, mas é muito improvável."

Como eles descobriram isso? (A Analogia da "Chave Quebrada")

Os pesquisadores pegaram milhares de tentativas de ataque reais e viram algo interessante:
Quando você começa a mudar letras de um ataque, ele não para de funcionar de repente (como um interruptor que desliga). Em vez disso, ele vai ficando mais fraco aos poucos, como um balão perdendo ar.

  • Ataque GCG (o "Hacker Rápido"): É como um código de trapaça que depende de uma sequência exata de letras. Se você mudar uma ou duas, o código quebra. É muito frágil.
  • Ataque PAIR (o "Hacker Persuasivo"): É como um hacker que usa inteligência para reescrever a pergunta de forma criativa. Mudar algumas letras não ajuda muito, porque a "ideia" do ataque continua lá. É mais resistente.

O novo método mede exatamente essa resistência. Ele diz: "Ok, para o ataque rápido, mudar 6 letras é suficiente para ter 95% de segurança. Mas para o ataque persuasivo, talvez precisemos mudar 15 letras para ter a mesma segurança."

Por que isso é importante para você?

Imagine que você é o dono de um banco e quer instalar esse sistema de segurança.

  1. Antigo (Rígido): O vendedor diz: "Compre nosso sistema! Ele é 100% seguro se você mudar 5 letras!". Você compra, mas descobre que, na prática, hackers conseguem burlar isso. Você perde dinheiro e confiança.
  2. Novo (Realista): O vendedor diz: "Compre nosso sistema. Se você mudar 10 letras, teremos 95% de chance de segurança. Se você mudar 20 letras, teremos 99%. Você decide quanto risco quer correr e quantas letras precisa mudar para ficar tranquilo."

Isso permite que empresas tomem decisões baseadas em dados reais, não em teorias perfeitas que não existem no mundo real.

Resumo da Ópera

Este artigo é como um manual de instruções atualizado para a segurança de Inteligência Artificial.

  • Eles tiraram a promessa de "segurança perfeita e impossível de falhar".
  • Colocaram no lugar uma promessa de "segurança realista e calculada".
  • Agora, em vez de confiar em sorte, as empresas podem usar matemática e dados reais para dizer: "Nossa IA é segura o suficiente para o que precisamos, sabendo exatamente qual é o risco residual."

É a diferença entre ter um guarda-costas que mente para você dizendo que é invencível, e ter um que é honesto, diz "quase invencível" e te dá os números exatos para você decidir se está confortável com isso.