Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um robô superinteligente (um Modelo de Linguagem Grande, ou LLM) que foi treinado para ser um "bom cidadão". Ele sabe fazer muitas coisas, mas foi programado para recusar pedidos perigosos, como "como fabricar uma bomba" ou "como hackear um banco".

Os pesquisadores deste artigo descobriram como "quebrar" essa programação de segurança de duas maneiras diferentes, dependendo de quão forte é o ataque e de quantas vezes tentamos. Eles usaram uma teoria física complexa (chamada vidro de spin) para explicar isso, mas vamos simplificar usando uma analogia de montanhas e vales.

A Analogia: O Mapa de Montanhas

Pense na inteligência do robô como um mapa de montanhas e vales:

Os Vales (Clusters): São as respostas que o robô tende a dar. Existem vales "seguros" (onde ele diz "não posso fazer isso") e vales "perigosos" (onde ele dá instruções ilegais).
A Gravidade: O robô "cai" naturalmente para os vales mais profundos (as respostas mais prováveis).

O Problema: Como fazer o robô cair no vale perigoso?

Os hackers usam "injeção de prompt" (frases mágicas ou códigos) para tentar empurrar o robô para o vale errado. O artigo mostra que a eficácia desse ataque depende de duas coisas: a força do empurrão e o número de tentativas.

1. O Empurrão Fraco (Prompts Curtos)

Imagine que você dá um leve empurrão no robô para tentar tirá-lo do vale seguro.

O que acontece: O robô ainda é muito "teimoso". Se você tentar uma vez, ele provavelmente não vai cair no vale perigoso.
A Lei da Escala: Se você tentar muitas vezes (gerar muitas respostas), a chance de sucesso cresce, mas devagar. É como tentar adivinhar uma senha: você pode tentar milhares de vezes e ainda assim demorar muito para acertar.
Na prática: Modelos muito inteligentes (como o GPT-4.5) são como montanhas muito altas. Um empurrãozinho não faz muita diferença, mesmo com muitas tentativas. O crescimento do sucesso é polinomial (lento).

2. O Empurrão Forte (Prompts Longos e Complexos)

Agora, imagine que você dá um empurrão gigante (usando um prompt de jailbreak longo e bem construído).

O que acontece: Esse empurrão é tão forte que ele muda a própria topografia da montanha para o robô. O vale seguro "desaparece" ou fica muito raso, e o vale perigoso se torna o lugar mais natural para o robô ir.
A Lei da Escala: Aqui, a mágica acontece. Se você aumentar o número de tentativas, a chance de sucesso explode exponencialmente. É como se, ao dar o empurrão certo, o robô começasse a "escorregar" sozinho para o lado errado.
Na prática: Em modelos um pouco menos inteligentes (como o Vicuna-7B), um prompt longo e agressivo faz com que, em poucas tentativas, o robô esqueça completamente suas regras de segurança e comece a obedecer ao pedido perigoso. O crescimento do sucesso é exponencial (rápido).

A Grande Descoberta: O "Campo Magnético"

Os autores explicam isso usando física. Eles tratam o prompt de ataque como um campo magnético:

Campo Fraco: Apenas treme um pouco o robô. Ele ainda segue sua lógica interna (raciocínio).
Campo Forte: O prompt longo age como um ímã poderoso que alinha todos os "pensamentos" do robô na direção do ataque. Isso cria uma ordem adversária: o robô para de pensar de forma complexa e começa a seguir o caminho do ataque como se fosse a única opção lógica.

Resumo Simples

Sem ataque: O robô é seguro. Tentar muitas vezes ajuda um pouco, mas não muito.
Ataque fraco (prompt curto): O robô é resistente. Você precisa de muitas tentativas para ter uma chance pequena de sucesso.
Ataque forte (prompt longo): O robô é "quebrado". O prompt longo desativa a capacidade de raciocínio do robô e o força a obedecer. Com apenas algumas tentativas, a chance de sucesso dispara drasticamente.

Por que isso importa?
O artigo nos alerta que, para modelos mais fracos, a segurança não é apenas sobre ter um bom "filtro". Se um atacante usar prompts longos e inteligentes, a segurança pode colapsar muito rápido. Para modelos muito fortes, a segurança é mais robusta, mas ainda existe um limite onde, com esforço suficiente (muitas tentativas + prompts fortes), eles também podem ser enganados.

É como se a segurança do robô fosse um castelo: um empurrãozinho na porta não entra, mas se você usar uma torre de cerco (prompt longo) e bater muitas vezes, o castelo pode cair de uma vez só.

Each language version is independently generated for its own context, not a direct translation.

Título: Leis de Escala para Jailbreak em Grandes Modelos de Linguagem: Transição Polinomial-Exponencial

1. Problema e Motivação

À medida que os modelos de linguagem grandes (LLMs) se tornam mais capazes, eles são frequentemente ajustados (fine-tuned) para seguir instruções e manter alinhamento de segurança, recusando-se a gerar conteúdo prejudicial. No entanto, esses modelos permanecem vulneráveis a ataques de "jailbreak" (quebra de segurança), onde injetam prompts adversários para contornar essas proteções.

O problema central investigado é: Como a taxa de sucesso do ataque (ASR - Attack Success Rate) escala com o número de amostras de inferência ( $k$ ) quando se utiliza a injeção de prompts adversários?

Observação Empírica Prévia: Sem injeção de prompts, a ASR cresce polinomialmente com $k$ (ou seja, a probabilidade de falha decai como uma lei de potência).
Novo Fenômeno: Os autores observam que, com a injeção de prompts adversários (especialmente em modelos mais fracos ou com injeções longas), a taxa de falha decai muito mais rápido, seguindo uma lei exponencial. A transição entre o crescimento polinomial e exponencial não era teoricamente explicada até este trabalho.

2. Metodologia: O Modelo SpinLLM

Para explicar esse fenômeno, os autores propõem um modelo generativo baseado em teoria de vidros de spin (spin-glass), chamado SpinLLM.

Analogia Física:
- O espaço de tokens do LLM é mapeado para um sistema de spins de Ising ( $N \to \infty$ ).
- A geração de texto corresponde à amostragem de configurações de baixa energia em um paisagem energética rugosa.
- O estado de segurança é definido por clusters (agrupamentos) de configurações de baixa energia. Um subconjunto desses clusters é designado como "inseguro" (unsafe) e o restante como "seguro" (safe).
- O modelo opera em um regime de quebra de simetria de réplicas (Replica Symmetry Breaking - RSB), onde a medida de Gibbs se decompõe em uma hierarquia de clusters (estados puros).
Configuração Professor-Aluno (Teacher-Student):
- Modelo Professor: Define a "verdade fundamental" sobre quais clusters são seguros ou inseguros. Ele gera a distribuição de dados e a estrutura hierárquica dos clusters.
- Modelo Aluno: Representa o modelo atacado. Ele possui um Hamiltoniano similar, mas sofre a influência de um campo magnético externo ( $h$ ) alinhado com os centros dos clusters inseguros do professor.
- Injeção de Prompt: A injeção de um prompt adversário é modelada como o aumento da intensidade desse campo magnético ( $h$ ). Um prompt curto/fracos corresponde a um campo fraco; um prompt longo/forte corresponde a um campo forte.

3. Contribuições Teóricas Principais

Os autores derivam analiticamente duas regimes distintos de escala para a taxa de sucesso do ataque ( $\Pi_k$ ) em função do número de tentativas ( $k$ ):

Regime de Campo Fraco (Polinomial):
- Ocorre quando o campo magnético $h$ é pequeno (injeção de prompt curta ou modelo robusto).
- O sistema permanece na fase de quebra de simetria de réplicas (RSB).
- A probabilidade de falha ($1 - \Pi_k$) decai como uma lei de potência:
  $\log(-\log(\Pi_k)) \sim -\hat{\nu} \log k + \text{constante}$
- O expoente $\hat{\nu}$ está relacionado à profundidade da árvore de raciocínio do modelo (capacidade de distinguir clusters similares).
Regime de Campo Forte (Exponencial):
- Ocorre quando o campo magnético $h$ é suficientemente grande (injeção de prompt longa ou forte).
- O sistema do aluno sofre uma transição de fase para um estado ordenado e simétrico de réplicas (Replica Symmetric - RS), onde a distribuição de probabilidade se concentra fortemente ao redor dos clusters inseguros.
- A probabilidade de falha decai exponencialmente:
  $\log(-\log(\Pi_k)) \sim -\hat{\nu} \log k - \hat{\mu} k + \text{constante}$
- O termo $-\hat{\mu} k$ domina, indicando que a cada amostra adicional, a chance de falha cai drasticamente.

Interpretação dos Parâmetros:

$\hat{\nu}$ : Mede a falta de capacidade de raciocínio (profundidade da árvore de decisão).
$\hat{\mu}$ : Mede a força da "ordem adversária" (quão bem o prompt injetado alinha o modelo com ideias inseguras).

4. Resultados Empíricos

Os autores validaram as previsões teóricas em vários modelos de linguagem (LLMs):

Modelos Testados: GPT-4.5 Turbo, Vicuna-7B, Llama-3-8B, Llama-3.2-3B, Mistral-7B.
Dataset: walledai/AdvBench (perguntas prejudiciais).
Método de Ataque: Injeção de prompts usando a estratégia GCG (Greedy Coordinate Gradient) e strings benignas ("Sure here is").
Avaliação: Uso de um "Juiz LLM" (Mistral-7B e GPT-4) para determinar se a resposta foi um jailbreak bem-sucedido, evitando falsos positivos de strings de recusa.

Achados Chave:

GPT-4.5 Turbo: Seguiu predominantemente a escala polinomial, indicando alta robustez e capacidade de raciocínio (campo magnético efetivo baixo).
Modelos Menores (ex: Vicuna-7B, Llama-3-8B): Com injeções de prompts longas, observou-se claramente a transição para a escala exponencial. A curva de $\log(-\log(\Pi_k))$ vs $\log(k)$ apresentou uma inclinação negativa linear (polinomial) que se curvava para baixo (exponencial) à medida que o número de amostras aumentava.
Correlação: A magnitude da injeção do prompt (número de tokens adversários) correlaciona-se diretamente com o aumento do parâmetro $\hat{\mu}$ , confirmando a hipótese de que prompts mais longos atuam como campos magnéticos mais fortes, ordenando o modelo em direção a comportamentos inseguros.

5. Significado e Conclusão

Fundamentação Teórica: O trabalho fornece a primeira explicação teórica rigorosa para a transição entre o crescimento polinomial e exponencial na taxa de sucesso de jailbreaks, utilizando a física estatística de vidros de spin.
Mecanismo de Falha: Sugere que prompts de jailbreak longos não apenas "enganam" o modelo, mas induzem uma transição de fase termodinâmica no espaço latente do modelo, reduzindo a complexidade da paisagem energética e alinhando o modelo a uma ordem adversária.
Implicações de Segurança:
- Modelos com maior capacidade de raciocínio (maior profundidade de árvore, menor $\hat{\nu}$ ) são mais resistentes, mantendo o regime polinomial.
- Aumentar o número de tentativas de inferência (inference-time compute) é uma estratégia de ataque extremamente eficaz contra modelos que já sofreram uma transição para o regime exponencial devido a prompts fortes.
- A defesa deve focar em manter o modelo no regime de quebra de simetria de réplicas (RSB), impedindo que o prompt adversário domine a paisagem energética.

Em resumo, o artigo demonstra que a segurança dos LLMs não é estática, mas depende dinamicamente da interação entre a capacidade de raciocínio do modelo e a força do prompt adversário, podendo ser descrita matematicamente através de leis de escala derivadas da teoria de vidros de spin.

Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover

A Analogia: O Mapa de Montanhas

O Problema: Como fazer o robô cair no vale perigoso?

1. O Empurrão Fraco (Prompts Curtos)

2. O Empurrão Forte (Prompts Longos e Complexos)

A Grande Descoberta: O "Campo Magnético"

Resumo Simples

Título: Leis de Escala para Jailbreak em Grandes Modelos de Linguagem: Transição Polinomial-Exponencial

1. Problema e Motivação

2. Metodologia: O Modelo SpinLLM

3. Contribuições Teóricas Principais

4. Resultados Empíricos

5. Significado e Conclusão

Mais como este

Faster Stochastic Algorithms for Minimax Optimization under Polyak--Łojasiewicz Conditions

Tensor Completion Leveraging Graph Information: A Dynamic Regularization Approach with Statistical Guarantees

Federated Multi-Agent Mapping for Planetary Exploration

Random Scaling and Momentum for Non-smooth Non-convex Optimization

Exploring Low-Dimensional Subspaces in Diffusion Models for Controllable Image Editing