Every Language Model Has a Forgery-Resistant Signature

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um modelo de linguagem (como um chatbot super inteligente) que é uma "caixa preta". Você não pode ver como ele foi construído, nem quem o programou, mas ele gera textos para você. Agora, imagine que alguém usa esse chatbot para escrever algo ofensivo ou falso, e depois nega que foi ele quem escreveu. Como provar que a mensagem veio daquele modelo específico?

É aqui que entra a descoberta incrível deste artigo: Todo modelo de linguagem carrega uma "assinatura geométrica" invisível, como uma impressão digital, que é quase impossível de falsificar.

Vamos usar algumas analogias para entender como isso funciona:

1. A Esfera e o Elipse (O Segredo da Arquitetura)

Imagine que, dentro do cérebro do modelo, existe uma bola perfeita (uma esfera). Quando o modelo processa uma palavra, ele pega essa informação e a coloca na superfície dessa bola.

Mas, antes de o modelo falar a resposta final, ele passa essa informação por um "filtro" especial (uma camada linear). Pense nesse filtro como uma máquina que pega a bola perfeita e a estica, gira e deforma.

Se você esticar uma bola de borracha de um jeito específico, ela vira um elipse (uma forma oval).
O artigo diz que todas as respostas que esse modelo gera (os "logprobs", que são as probabilidades de cada palavra possível) são forçadas a cair exatamente na superfície desse elipse deformado.

A Analogia: Pense em um atirador de dardos. Se ele tem um alvo normal, os dardos podem cair em qualquer lugar. Mas imagine que o alvo é um elipse de vidro flutuante no ar. Se o atirador é o modelo, todos os seus dardos (respostas) vão bater exatamente no vidro. Se o dardo não bater no vidro, sabemos que não foi aquele atirador.

2. A Assinatura Natural (Não é um Carimbo, é uma Lei da Física)

Muitos métodos atuais tentam "marcar" o texto de um modelo, como colocar um carimbo invisível ou um código secreto no texto. Mas isso exige que o dono do modelo queira colocar essa marca.

A assinatura deste artigo é diferente:

Natural: Ela acontece sozinha, assim como a gravidade faz uma maçã cair. Não precisa ser programada. Se o modelo usa uma arquitetura moderna (que quase todos usam), ele tem que gerar respostas nesse formato de elipse.
Autocontida: Você não precisa ver o código do modelo nem saber o que foi digitado antes. Basta olhar para a resposta final. É como identificar a marca de um carro apenas pela forma das rodas, sem precisar abrir o capô.

3. A Dificuldade de Falsificação (O "Truque" Impossível)

A parte mais genial é que é extremamente difícil falsificar essa assinatura.

O Problema do Falsificador: Para falsificar uma assinatura linear (outro método antigo), o bandido só precisava de algumas dicas para descobrir a linha reta e desenhar algo parecido. É como copiar um traço simples.
O Problema do Elipse: Para falsificar essa assinatura de elipse, o bandido precisaria descobrir exatamente como a bola foi esticada e girada. Para fazer isso, ele teria que coletar milhões de respostas do modelo e tentar "reconstruir" a forma do elipse matematicamente.
- O Custo: O artigo calcula que, para modelos grandes (como os usados hoje), isso custaria milhões de dólares em consultas à API e levaria milhares de anos de processamento de computador apenas para descobrir a forma do elipse.
- A Conclusão: É como tentar adivinhar a receita exata de um bolo complexo apenas provando migalhas que caíram no chão, sem ter acesso à cozinha. Na prática, é impossível.

4. O "Selo de Autenticidade" (Como usar isso?)

Os autores propõem um sistema parecido com a criptografia bancária:

O Segredo: O dono do modelo (ou uma autoridade confiável) conhece a forma exata do elipse do modelo dele.
A Verificação: Quando alguém recebe um texto, pode verificar se as probabilidades das palavras usadas "cabem" naquele elipse específico.
O Resultado: Se as probabilidades estiverem no elipse, é 99,9% certo que aquele texto veio daquele modelo. Se não estiverem, é uma falsificação ou veio de outro modelo.

Resumo em uma frase

Este artigo descobriu que os modelos de linguagem deixam uma "pegada geométrica" única e natural em todas as suas respostas; embora seja fácil verificar se uma resposta tem essa pegada, é tão caro e difícil tentar copiá-la que isso se torna uma prova irrefutável de autoria, ajudando a combater fraudes e responsabilizar empresas que usam esses modelos.

É como se cada modelo de IA tivesse uma impressão digital geométrica que ele não consegue apagar e que ninguém consegue copiar sem gastar uma fortuna.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Com a proliferação de modelos de linguagem (LLMs) de pesos fechados (closed-weight) acessíveis apenas via API, surgiu a necessidade de métodos forenses para:

Identificar a origem de um texto gerado.
Extrair detalhes ocultos do modelo (como parâmetros).
Garantir a responsabilidade e a autenticidade das saídas.

Métodos existentes, como "fingerprinting" (impressão digital) e marcas d'água, muitas vezes exigem que o provedor do modelo implemente o sistema proativamente (não são naturais) ou requerem múltiplos passos de geração para serem detectados. Além disso, assinaturas lineares anteriores (baseadas em restrições geométricas simples) são vulneráveis a falsificação, pois é possível extrair as restrições lineares via API e gerar novos log-probabilities que as satisfaçam.

O artigo propõe explorar uma restrição geométrica menos conhecida: a existência de que as saídas de log-probability (logprobs) de modelos de linguagem residem na superfície de um elipsoide de alta dimensão.

2. Metodologia

A. Fundamentação Matemática: O Elipsoide

Os autores demonstram que, devido à arquitetura padrão dos LLMs (especificamente a presença de uma camada de normalização final seguida por uma transformação linear), as representações internas são mapeadas para uma esfera unitária e, subsequentemente, esticadas e rotacionadas pela matriz de saída (unembedding).

Normalização: Camadas como RMSNorm ou LayerNorm mapeam os estados ocultos para a superfície de uma esfera $d$ -dimensional.
Transformação Afim: A camada linear final ( $W$ ) e as transformações elementares ( $\gamma, \beta$ ) aplicam uma transformação afim a essa esfera.
Resultado: O resultado dessa transformação é que os logits (e consequentemente os logprobs, após centralização) residem na superfície de um elipsoide $d$ -dimensional no espaço de vocabulário $v$ .

B. A Assinatura como MAC (Message Authentication Code)

O artigo propõe um protocolo de verificação análogo a sistemas de autenticação de mensagens criptográficas (MAC):

Chave Secreta: Os parâmetros do elipsoide (definidos pelos pesos finais do modelo) atuam como a chave secreta.
Mensagem: O vetor de logprobs gerado.
Etiqueta (Tag): A posição do vetor no espaço $R^v$ , que deve estar estritamente na superfície do elipsoide.
Verificação: Um verificador que possui os parâmetros do elipsoide pode verificar se um logprob pertence a esse elipsoide. Se estiver na superfície, a saída é autêntica; caso contrário, foi gerada por outro modelo ou falsificada.

C. Extração e Falsificação

Para falsificar a assinatura, um atacante precisaria gerar novos logprobs que residam no elipsoide sem acesso aos pesos do modelo. Isso exigiria:

Extração do Elipsoide: Coletar saídas da API e ajustar um elipsoide aos pontos.
Geração: Usar o elipsoide ajustado para gerar novos pontos válidos.

Os autores analisam a complexidade computacional e de consulta (query complexity) para realizar essa extração:

Complexidade de Amostragem: São necessários $O(d^2)$ pontos para definir um elipsoide, onde $d$ é o tamanho do embedding. Como a API exige múltiplas consultas para obter vetores completos de logprobs, o custo cresce para $O(d^3 \log d)$ ou $O(d^3)$ dependendo da API.
Complexidade de Ajuste (Fitting): O algoritmo para ajustar um elipsoide a esses pontos tem complexidade de tempo $O(d^6)$ .

3. Principais Contribuições e Resultados

Propriedades Únicas da Assinatura de Elipsoide

O artigo destaca quatro propriedades que diferenciam esta assinatura de métodos anteriores (como marcas d'água ou assinaturas lineares):

Resistência a Falsificação (Forgery-Resistant): Diferente das assinaturas lineares, é computacionalmente inviável (na prática) extrair o elipsoide de modelos grandes via API e gerar novos pontos válidos devido ao custo exponencial/cúbico.
Natural (Naturally Occurring): Não requer implementação intencional pelo provedor; é uma consequência matemática inevitável da arquitetura de normalização + linear usada em quase todos os LLMs modernos.
Autocontida (Self-Contained): A verificação não requer acesso aos dados de entrada (prompts) nem aos pesos completos do modelo, apenas aos parâmetros do elipsoide (que podem ser compartilhados com um terceiro confiável).
Compacta e Redundante: A assinatura está presente em cada passo de geração individual. Não é necessário analisar uma sequência longa de texto para identificar o modelo; um único token é suficiente.

Resultados Experimentais

Validação em Modelos Abertos: Os autores testaram a detecção em modelos como Olmo 2, Llama 3.1, Qwen 3 e GPT OSS. Ao projetar as saídas de um modelo no espaço de outro, a distância ao elipsoide do modelo gerador original foi ordens de magnitude menor do que para outros modelos, permitindo identificação precisa.
Estimativa de Custo de Falsificação:
- Para um modelo pequeno (ex: Babbage-002), o custo para extrair o elipsoide seria de aproximadamente $1.000.
- Para modelos maiores (ex: GPT-3.5-Turbo), o custo estimado ultrapassa $150.000.
- Para modelos de escala 70B, o custo estimado supera $16 milhões, tornando a falsificação economicamente proibitiva.
Tempo de Processamento: A extrapolação do tempo de ajuste do elipsoide sugere que, para modelos de 70B, o tempo de computação necessário para ajustar os parâmetros seria de milhares de anos com hardware atual, mesmo com paralelização.

4. Significância e Implicações

Forense de Modelos: Oferece uma ferramenta poderosa para identificar a origem de textos gerados por IA, mesmo quando o provedor não deseja divulgar os pesos do modelo.
Responsabilidade e Regulamentação: Permite criar protocolos onde um terceiro confiável (ou regulador) pode verificar se uma saída específica veio de um modelo específico, facilitando a responsabilização em casos de conteúdo prejudicial ou violação de direitos autorais.
Segurança Criptográfica Prática: Embora não seja uma prova de segurança criptográfica absoluta (a resistência é polinomial, não exponencial), a barreira computacional e econômica estabelecida pela complexidade $O(d^6)$ e o custo de API cria uma "barreira de segurança" prática robusta contra adversários atuais.
Limitações: O método depende da disponibilidade de logprobs via API (atualmente restrito a poucos provedores como a OpenAI) e não é removível (se o modelo for alterado, a assinatura muda, mas não é "robusta" contra remoção intencional por modificação de pesos).

Em suma, o trabalho estabelece que a geometria inerente aos LLMs cria uma assinatura única, difícil de forjar e fácil de verificar, preenchendo uma lacuna crítica no ecossistema de segurança e forense de inteligência artificial.