Topic-Based Watermarks for Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Grandes Modelos de Linguagem (LLMs), como o ChatGPT, são como cozinheiros extremamente talentados que podem escrever receitas, histórias e e-mails tão bem que você mal consegue distinguir se foram feitos por um humano ou por uma máquina. O problema é: e se alguém usar esse "talento" para espalhar mentiras, roubar ideias ou treinar outras máquinas com textos falsos, criando um ciclo de lixo?

Para resolver isso, os cientistas precisam de uma maneira de marcar o texto gerado por IA, como um carimbo invisível que diz: "Ei, isso foi feito por um robô!".

Este artigo apresenta uma nova técnica chamada Marca d'Água Baseada em Tópicos (TBW). Vamos entender como ela funciona usando analogias do dia a dia.

O Problema das Soluções Antigas

Antes, existiam duas formas principais de fazer essa marcação, e ambas tinham defeitos:

O "Selo Aleatório": Imagine que o cozinheiro (a IA) escolhe palavras aleatoriamente para marcar o texto. O problema é que, se você reescrever o texto (paráfrase) ou trocar algumas palavras, o selo some. É como tentar marcar um bolo com um pó que o vento leva embora.
O "Cozinheiro de Dupla Turno": Outras técnicas exigem que a IA escreva o texto, depois leia, pense e reescreva para inserir a marca. Isso é lento, cansa o computador e muitas vezes faz o texto ficar estranho ou repetitivo.

A Solução: O "Menu Temático" (TBW)

A nova proposta dos autores é mais inteligente e leve. Em vez de escolher palavras aleatoriamente, eles organizam o vocabulário da IA em categorias temáticas, como se fossem prateleiras em uma mercearia gigante.

Imagine que a IA tem um vocabulário com milhares de palavras. Eles dividem essas palavras em 4 grandes "cestas" (tópicos):

🐯 Animais (leão, cauda, pata, pelagem)
🏀 Esportes (gol, passe, técnico, estádio)
💻 Tecnologia (computador, rede, servidor, teclado)
🏥 Medicina (vírus, enfermeira, vacina, hospital)

Como funciona a mágica:

O Pedido (Prompt): Quando você pede para a IA escrever algo, digamos: "Escreva sobre um jogo de futebol", a IA olha para o seu pedido e identifica o tema: Esportes.
A Cesta Verde: A IA então olha para a "cesta de Esportes" e decide: "Vou priorizar palavras que estão nesta cesta para escrever o texto". Ela dá um leve empurrãozinho (um viés) para escolher palavras como "gol", "chute" ou "torcida" em vez de palavras aleatórias.
O Carimbo Invisível: Como a IA está escolhendo consistentemente palavras de uma categoria específica baseada no seu pedido, ela está, na verdade, "assinando" o texto com esse tema. Se alguém tentar reescrever o texto trocando palavras, a estrutura temática (a assinatura) tende a se manter, porque o significado do texto ainda é sobre futebol.

Por que isso é genial?

Não estraga o sabor (Qualidade): Como a IA escolhe palavras que fazem sentido para o tema (ex: "gol" para um texto de futebol), o texto continua fluindo naturalmente. Não parece forçado. É como se o cozinheiro escolhesse ingredientes que combinam perfeitamente com o prato, em vez de jogar sal aleatoriamente.
É rápido (Eficiência): A IA não precisa reler o texto várias vezes. Ela apenas olha para a "cesta certa" enquanto escreve. É tão rápido quanto escrever normalmente.
É resistente (Robustez): Se alguém tentar reescrever o texto para esconder a marca (paráfrase), é difícil mudar completamente o tema sem perder o sentido. A marca d'água sobrevive a essas mudanças porque está "costurada" no significado do texto, não apenas em palavras soltas.

O Detetive (Como descobrir a marca?)

Para verificar se um texto tem essa marca, o sistema não precisa saber exatamente qual tema você pediu originalmente. Ele pode testar todas as "cestas" possíveis.

Ele pergunta: "Se eu olhar para as palavras de 'Esportes', elas aparecem mais do que o normal?"
Se a resposta for "Sim, muito!", o texto é marcado como gerado por IA.
A melhor parte: Mesmo que o texto tenha tópicos mistos ou confusos, o sistema consegue encontrar a "cesta" que tem a assinatura mais forte.

Resumo da Ópera

Os autores criaram um sistema que marca o texto de IA de forma inteligente e discreta.

Antes: Marcas aleatórias que sumiam com uma simples reescrita, ou marcas que deixavam o texto lento e ruim.
Agora (TBW): Uma marca que usa o próprio tema do texto para se esconder. É como escrever uma carta onde cada palavra escolhida segue uma regra temática específica. Se você tentar reescrever a carta, ainda terá que seguir a lógica do tema, mantendo a marca viva.

Isso permite que as empresas e pesquisadores saibam quem (ou o que) escreveu um texto, protegendo contra desinformação e garantindo que a IA não seja usada para "ensinar" outras IAs a ficarem piores (um problema chamado "colapso de modelo"), tudo isso sem deixar o texto artificial ou lento.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

A rápida evolução dos Grandes Modelos de Linguagem (LLMs) resultou na geração de textos quase indistinguíveis de conteúdo humano. Isso levanta preocupações críticas sobre:

Uso Malicioso: Desinformação, plágio e violação de direitos autorais.
Colapso de Modelos: O treinamento futuro de modelos em dados gerados por IA pode levar a uma degradação gradual da qualidade ("model collapse").

As abordagens existentes para detecção enfrentam um dilema de compromisso (trade-off):

Métodos Leves (ex: KGW, SynthID): Oferecem eficiência e qualidade de texto, mas são frágeis contra ataques de paráfrase e perturbação lexical.
Métodos Robustos (ex: EXP, ITS-Edit): São resistentes a ataques, mas exigem múltiplas passadas de inferência ou modificações arquitetônicas, degradando a fluência do texto e aumentando o custo computacional, o que inviabiliza sua adoção prática em larga escala.

2. Metodologia Proposta: TBW (Topic-Based Watermarking)

Os autores propõem o TBW, um esquema de marcação d'água leve e guiado por tópicos que integra informações semânticas ao processo de geração sem alterar o pipeline de inferência padrão.

A. Mapeamento Token-Tópico (Pré-processamento)

Definição de Tópicos: Um conjunto pré-definido de $K$ tópicos gerais (ex: {animais, tecnologia, esportes, medicina}) é estabelecido, cada um com um embedding vetorial.
Particionamento do Vocabulário: O vocabulário do LLM ( $V$ $V$ ) é particionado em listas de "tokens verdes" (green lists) baseadas na similaridade semântica.
- Para cada token $v$ , calcula-se a similaridade (cosseno) com os embeddings dos tópicos.
- Se a similaridade superar um limiar $\tau$ , o token é atribuído à lista do tópico correspondente.
- Tokens que não atendem ao limiar são distribuídos de forma rotativa (round-robin) entre as listas para garantir cobertura total do vocabulário.
Resultado: Cada lista de tópico atua como uma "lista verde" semântica, análoga às listas aleatórias do método KGW, mas com coerência semântica.

B. Geração com Viés Semântico

Durante a geração de texto:

Extração de Tópicos: O prompt de entrada é analisado por um extrator leve (KeyBERT) para identificar tópicos relevantes.
Seleção da Lista Verde: O sistema mapeia o prompt para o tópico pré-definido mais próximo (usando correspondência direta ou clustering).
Viés de Logits: Ao gerar o próximo token, o modelo adiciona um viés positivo ( $\delta$ ) aos logits de todos os tokens pertencentes à lista verde do tópico selecionado.
Amostragem: O token é amostrado a partir da distribuição de probabilidade ajustada. Isso aumenta a probabilidade de escolher tokens semanticamente alinhados ao tópico, embutindo a marca d'água enquanto preserva a fluência.

C. Detecção

O artigo propõe três esquemas de detecção, sendo o mais robusto o Máximo Z-Score:

Método: Em vez de depender da extração perfeita do tópico do texto (que pode falhar devido a desvios de tópico), o detector calcula o escore Z para todas as listas de tópicos pré-definidas.
Decisão: O texto é classificado como marcado se o máximo escore Z entre todos os tópicos exceder um limiar. Isso elimina a necessidade de conhecimento prévio do tópico de geração, tornando o método robusto a ambiguidades.

3. Principais Contribuições

Alinhamento Semântico: Diferente de métodos que particionam o vocabulário aleatoriamente, o TBW utiliza a semântica para guiar a marcação, o que permite que a marca d'água seja mais robusta contra paráfrases (já que a reescrita tende a manter a coerência temática).
Eficiência e Simplicidade: O método não requer modificações no modelo, múltiplas passadas de inferência ou frameworks complexos. O overhead computacional é mínimo, comparável à geração sem marca d'água.
Robustez Superior: Demonstra resiliência superior contra ataques de paráfrase (PEGASUS, DIPPER) e perturbação lexical em comparação com métodos leves existentes, sem sacrificar a qualidade do texto.

4. Resultados Experimentais

Os experimentos foram realizados em modelos OPT-6.7B e GEMMA-7B usando o conjunto de dados C4.

Qualidade do Texto (Perplexidade):
- O TBW alcançou perplexidade significativamente menor (texto de maior qualidade) do que a maioria das técnicas de marcação d'água, aproximando-se dos resultados de sistemas sem marca d'água.
- Superou o método Unigram em ~42-48% na melhoria de perplexidade.
- Avaliações humanas e "LLM-as-a-Judge" confirmaram que a fluência, coerência e gramática não foram degradadas perceptivelmente.
Robustez a Ataques:
- Paráfrase: O TBW manteve altas taxas de detecção (ROC-AUC e F1) sob ataques agressivos de paráfrase (PEGASUS e DIPPER), superando KGW, SynthID e DiP, e competindo com métodos mais pesados como Unigram.
- Perturbação Lexical: O método demonstrou resiliência contra inserções, deleções e substituições de palavras, mantendo a detecção mesmo com níveis moderados de ruído.
Eficiência:
- O tempo de geração do TBW foi praticamente idêntico ao da geração padrão e de métodos leves como KGW.
- Métodos baseados em múltiplas passadas (como EXP-Edit) foram significativamente mais lentos.
Detecção:
- O esquema de Máximo Z-Score alcançou taxas de detecção quase perfeitas (99.6% - 100%) em condições realistas, sem necessidade de acesso ao prompt original ou conhecimento exato do tópico.

5. Significado e Conclusão

O trabalho preenche uma lacuna crítica no campo de segurança de LLMs. O TBW oferece um caminho prático para a implementação global de marcas d'água em IA, resolvendo o dilema histórico entre robustez e qualidade/eficiência.

Aplicabilidade: Por não exigir modificações no modelo e ter baixo custo computacional, é viável para implantação em sistemas de produção de baixa latência.
Escalabilidade: O método escala bem com o tamanho do vocabulário e pode ser adaptado para domínios específicos ajustando as listas de tópicos.
Impacto: Proporciona uma ferramenta confiável para atribuir proveniência ao conteúdo gerado por IA, ajudando a mitigar riscos de desinformação e protegendo a integridade dos dados de treinamento futuros.

Em resumo, o TBW representa um avanço significativo ao demonstrar que a integração de informações semânticas no processo de marcação d'água pode resultar em sistemas que são simultaneamente rápidos, de alta qualidade e altamente resistentes a tentativas de remoção.