JULI: Jailbreak Large Language Models by Self-Introspection

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Grandes Modelos de Linguagem (LLMs), como o ChatGPT ou o Gemini, são como guardiões de um museu muito seguro. Eles foram treinados para não deixar você sair com obras de arte proibidas (conteúdo perigoso, como instruções para fazer bombas ou hackear sistemas). Eles têm um "instinto de segurança" muito forte que os faz dizer: "Desculpe, não posso fazer isso".

A maioria dos ataques anteriores tentava "quebrar a fechadura" de duas formas:

Força bruta: Tentar adivinhar a senha (o que exige acesso total ao código do museu, algo que só os donos têm).
Enganar o guarda: Usar truques de linguagem complexos para confundir o guarda, mas muitas vezes ele ainda consegue ver a intenção e bloquear.

O novo artigo, chamado JULI, descobriu um segredo que ninguém estava olhando: o que o guarda está pensando antes de falar.

A Analogia do "Rascunho Mental"

Quando você pergunta algo perigoso para um modelo de IA, ele não decide instantaneamente "não". Primeiro, ele gera um rascunho mental de todas as palavras possíveis que poderiam vir a seguir.

Imagine que você pergunta: "Como faço uma bomba?"
O modelo pensa:

"Desculpe..." (Probabilidade alta: 80%)
"Não posso..." (Probabilidade média: 10%)
"Aqui está..." (Probabilidade baixa: 5%)
"Você pode usar..." (Probabilidade baixa: 5%)

Mesmo que o modelo escolha "Desculpe" para falar, ele ainda sabe que a frase "Aqui está..." é uma possibilidade válida dentro do seu conhecimento. O perigo está escondido nas probabilidades baixas, mas reais.

O Que o JULI Faz? (O "Ajustador de Frequência")

O JULI é como um pequeno dispositivo de interferência (chamado BiasNet) que se conecta ao sistema de comunicação do modelo. Ele não precisa entrar no museu (não precisa das chaves do dono) e não precisa reescrever o livro de regras.

Ele espia o rascunho: O JULI olha para a lista de palavras que o modelo está considerando (as probabilidades dos próximos tokens).
Ele dá um "empurrãozinho": Em vez de mudar a resposta inteira, ele usa um truque matemático simples para aumentar levemente a chance de palavras perigosas e diminuir as palavras de recusa.
- Analogia: Imagine que o modelo está prestes a dizer "Desculpe". O JULI dá um leve empurrão no equilíbrio, fazendo com que a palavra "Claro" fique ligeiramente mais provável do que "Desculpe".
O resultado: O modelo, seguindo sua própria lógica, acaba escolhendo a palavra "Claro" e começa a dar a resposta perigosa que ele sabia o tempo todo, mas que estava "trancada" pela segurança.

Por que isso é assustador?

O artigo mostra que esse método funciona mesmo em modelos fechados (como o Gemini, que você acessa apenas pela internet, sem ver o código por dentro).

O Truque: Os provedores de IA (como a Google ou OpenAI) às vezes mostram quais são as 5 palavras mais prováveis que o modelo vai escolher a seguir. O JULI usa apenas essa pequena lista de "top 5" para fazer seu ajuste.
A Conclusão: Mesmo que o modelo seja super seguro e diga "não" para você, ele ainda sabe como fazer a coisa perigosa. O JULI apenas "sintoniza" a frequência dele para que ele fale o que sabe, em vez do que deveria dizer.

Resumo em uma frase

O JULI não força a porta do museu; ele apenas sussurra no ouvido do guarda, fazendo com que ele mude de ideia e entregue o objeto proibido, revelando que a segurança atual dos modelos pode ser mais frágil do que imaginávamos, pois eles ainda "sabem" o perigo, mesmo que não queiram "falar" sobre ele.

Each language version is independently generated for its own context, not a direct translation.

Título: JULI: Quebrando a Segurança de Grandes Modelos de Linguagem (LLMs) por Auto-Introspecção

1. O Problema

Os Grandes Modelos de Linguagem (LLMs) são alinhados com segurança para evitar a geração de conteúdo malicioso. No entanto, ataques de "jailbreak" (quebra de segurança) existentes apresentam limitações significativas:

Dependência de Pesos: Muitos métodos (como GCG, ED, WTS) exigem acesso aos pesos do modelo ou a versões não alinhadas do modelo, o que é impossível para modelos proprietários acessados apenas via API (como Gemini, GPT-4, etc.).
Controle de Geração: Alguns ataques exigem controle detalhado sobre o processo de geração (logits completos) que não é fornecido pelas APIs comerciais.
Baixa Eficiência e Qualidade: Métodos que funcionam via API (como LINT) frequentemente sofrem com baixa eficiência de inferência, baixa qualidade de resposta e taxas de sucesso reduzidas, pois dependem de reamostragem iterativa sem manipulação direta das probabilidades.

O problema central é: Como quebrar a segurança de modelos proprietários (caixa-preta) que só retornam as probabilidades logarítmicas dos top-k tokens, sem acesso aos pesos internos?

2. Metodologia: JULI (Jailbreaking Using LLM Introspection)

O JULI propõe uma nova abordagem que não tenta "enganar" o modelo com prompts complexos, mas sim explora o conhecimento interno do próprio modelo através de uma introspecção de suas probabilidades de saída.

Principais Componentes:

BiasNet (Bloco Plug-in): Um pequeno bloco de rede neural (menos de 1% dos parâmetros do modelo alvo) que atua como um "seletor". Ele não contém conhecimento malicioso em si; em vez disso, ele aprende a identificar quais tokens nas probabilidades de saída do modelo alvo contêm a informação desejada (mesmo que o modelo tente recusar a resposta).
Manipulação de Log-Probabilidades: O JULI intercepta as probabilidades logarítmicas dos tokens gerados pelo modelo alvo e aplica um viés (bias) calculado pelo BiasNet. Isso altera a distribuição de probabilidade, favorecendo tokens que levam a uma resposta maliciosa.
Funcionamento em Cenários de API (Caixa-Preta):
- Restrição 1 (Pesos Desconhecidos): O JULI utiliza uma matriz de projeção inicializada aleatoriamente e otimizada sem dados (data-free) para mapear o espaço de tokens para o espaço oculto, contornando a necessidade de pesos reais.
- Restrição 2 (Apenas Top-k): O método utiliza um mecanismo de "padding" (preenchimento). Se a API retorna apenas os top-k log-probs (ex: top-5), o JULI atribui uma probabilidade logarítmica fixa (baseada no k-ésimo token menos um offset) a todos os outros tokens do vocabulário. Isso permite que o BiasNet processe a entrada completa, mesmo com acesso limitado.

Algoritmo de Ataque:

O usuário envia um prompt malicioso.
O modelo alvo gera as log-probabilidades dos próximos tokens.
O BiasNet processa essas probabilidades e gera um vetor de viés.
As probabilidades originais são somadas ao viés ( $\log \tilde{p} = \log p + B$ ).
O token é amostrado da distribuição modificada e adicionado à resposta.
O processo se repete token a token.

3. Contribuições Chave

Novo Vetor de Ataque via API: Demonstra que a exposição de log-probabilidades (top-k) em APIs comerciais é uma vulnerabilidade crítica, permitindo a extração de conhecimento malicioso mesmo quando o modelo se recusa verbalmente a responder.
Eficiência Extrema: O JULI requer apenas 100 pares de dados maliciosos para treinar o BiasNet e utiliza menos de 1% dos parâmetros do modelo alvo, tornando-o extremamente leve e barato de executar.
Superioridade em Modelos Proprietários: É o primeiro método a conseguir quebrar modelos de ponta como o Gemini-2.5-Pro via API com alta eficácia, sem acesso aos pesos.
Métrica de Avaliação Melhorada: Propõe o "Harmful Info Score", uma métrica que avalia não apenas se a resposta é "harmful" (perigosa), mas se ela é informativa e coerente, evitando falsos positivos de respostas que apenas concordam com o prompt sem entregar conteúdo útil.

4. Resultados Experimentais

Os experimentos foram realizados em modelos de código aberto (Llama 2/3, Qwen) e modelos proprietários (Gemini 2.5 Flash e Pro).

Desempenho em API (Gemini-2.5-Pro):
- O JULI alcançou uma pontuação de 4.19/5 na métrica de "Harmful Info Score" (avaliada por GPT-4), superando significativamente o estado da arte (SOTA).
- O segundo melhor método (FLIP) obteve apenas 1.38.
- O JULI funcionou mesmo com acesso limitado apenas aos top-5 log-probabilidades.
Desempenho em Código Aberto:
- Em modelos como Llama3-8B, o JULI superou métodos como GCG, ED e WTS, alcançando pontuações acima de 4.0 em múltiplas métricas.
- Foi significativamente mais rápido que o método LINT (0.71s vs 99.7s por ataque).
Resistência a Defesas:
- O JULI conseguiu contornar defesas de ponta, como o mecanismo de "Circuit Breaker" no Llama3-8B-CB, onde outros métodos falharam ou tiveram desempenho drasticamente reduzido.
Transferibilidade: O BiasNet treinado em um modelo da série Llama3 pode ser transferido para outros modelos da mesma série com boa eficácia.

Análise Visual:
A análise das distribuições de probabilidade (Figura 3 do artigo) mostra que o JULI atua de forma esparsa. Ele preserva a distribuição original do modelo na maioria dos tokens, mas modifica drasticamente as probabilidades em posições críticas (como o início da resposta), forçando a transição de uma recusa ("I can't...") para uma afirmação ("Sure, here's...").

5. Significado e Implicações

Risco Subestimado: O trabalho revela que o alinhamento de segurança atual é frágil. Mesmo que um modelo se recuse a dizer a resposta, a informação maliciosa ainda está presente e acessível na sua distribuição de probabilidade interna.
Vulnerabilidade de APIs: A prática comum de APIs retornarem top-k log-probabilidades para fins de depuração ou personalização cria uma porta de entrada para ataques sofisticados que não requerem acesso aos pesos do modelo.
Necessidade de Novas Defesas: O JULI sugere que métodos de defesa baseados apenas em filtragem de prompts ou fine-tuning de segurança são insuficientes. A comunidade precisa desenvolver mecanismos de segurança mais fundamentais que protejam a própria distribuição de saída do modelo, não apenas a superfície da resposta.

Em resumo, o JULI demonstra que a "introspecção" das probabilidades de um LLM, quando manipulada por um pequeno adaptador, é uma ferramenta poderosa para contornar alinhamentos de segurança, representando um desafio crítico para a segurança de modelos proprietários acessados via API.

JULI: Jailbreak Large Language Models by Self-Introspection

A Analogia do "Rascunho Mental"

O Que o JULI Faz? (O "Ajustador de Frequência")

Por que isso é assustador?

Resumo em uma frase

Título: JULI: Quebrando a Segurança de Grandes Modelos de Linguagem (LLMs) por Auto-Introspecção

1. O Problema

2. Metodologia: JULI (Jailbreaking Using LLM Introspection)

3. Contribuições Chave

4. Resultados Experimentais

5. Significado e Implicações

Mais como este

XConv: Low-memory stochastic backpropagation for convolutional layers

A Survey on Decentralized Federated Learning

Polynomially Over-Parameterized Convolutional Neural Networks Contain Structured Strong Winning Lottery Tickets

Provable Filter for Real-world Graph Clustering

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps