PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef de cozinha muito famoso (o Modelo de IA) e está criando pratos incríveis (textos). O problema é que, às vezes, você não sabe se o prato foi feito por você ou por um robô que imita seu estilo perfeitamente. Além disso, se alguém pegar sua receita e reescrevê-la com outras palavras (um "ataque de parafraseio"), é difícil provar que a ideia original era sua.

Aqui entra o PMARK, a nova solução apresentada neste artigo, que funciona como um selo de autenticidade invisível e indestrutível para textos gerados por IA.

Vamos entender como funciona, usando analogias simples:

1. O Problema dos Selos Antigos (Marcas de Nível de Token)

Antes, os cientistas tentavam colocar uma "marca d'água" em cada palavra (token) do texto, como se cada letra tivesse um código secreto.

O defeito: Se você pegar um texto e reescrevê-lo todo (mudando as palavras, mas mantendo o sentido), o código secreto se perde, como tentar encontrar uma agulha em um palheiro que foi todo rearrumado.
Outro defeito: Para colocar esse código, os modelos antigos muitas vezes "forçavam" a escolha de palavras, o que fazia o texto soar robótico e estranho (como um prato que tem um gosto químico porque o chef foi obrigado a usar um ingrediente específico).

2. A Solução do PMARK: O "Selo da Frase Inteira"

O PMARK muda a regra do jogo. Em vez de marcar palavra por palavra, ele marca frases inteiras (o nível semântico). Pense em uma frase como um bolo inteiro, não apenas um grão de açúcar.

A Ideia Central: A "Bússola Mágica" (Função Proxy)

Imagine que cada frase que o modelo gera é um ponto em um mapa gigante. O PMARK usa uma "bússola mágica" (chamada de Função Proxy) para apontar para essas frases.

A bússola diz: "Essa frase aponta para o Norte" ou "Essa aponta para o Sul".
O segredo é que o PMARK não força a frase a ir para o Norte ou Sul. Ele apenas escolhe aleatoriamente entre as frases que o modelo já queria gerar, mas que apontam para a direção correta.

A Grande Magia: "Distortion-Free" (Sem Distorção)

Aqui está o pulo do gato. Métodos antigos jogavam fora as frases que não tinham a marca, o que deixava o texto ruim.
O PMARK é como um filtro de peneira inteligente:

O modelo gera várias opções de frases (como se fossem 64 bolos diferentes).
O PMARK olha para eles e diz: "Ok, vamos escolher apenas os que apontam para o 'Norte' (ou 'Sul', dependendo do segredo)".
O Truque: Como ele escolhe aleatoriamente entre as opções que o modelo já gostava, o texto final continua soando natural e perfeito. Não há "gosto químico". É como se você tivesse 100 fotos lindas e escolhesse a que tem um filtro específico, mas todas as 100 já eram lindas.

3. O Superpoder: As "Múltiplas Bússolas" (Canais)

O maior problema de selos antigos era que, se um hacker mudasse a frase, ele podia facilmente "desligar" a bússola única.
O PMARK usa 4 bússolas ao mesmo tempo (chamadas de Canais), todas apontando em direções diferentes (como Norte, Leste, Sul e Oeste).

Para um hacker destruir a marca, ele teria que mudar a frase de tal forma que ela parecesse "errada" para todas as 4 bússolas ao mesmo tempo.
Isso é quase impossível sem destruir o sentido da frase. É como tentar mudar a cor de um camaleão para que ele fique invisível para 4 câmeras de segurança diferentes ao mesmo tempo.

4. Como Detectar? (O Teste do Detetive)

Quando alguém recebe um texto e quer saber se é do PMARK:

O detetive (o algoritmo de detecção) gera novamente várias opções para aquela frase.
Ele verifica se a frase original do texto se encaixa nas "metades" escolhidas pelas bússolas.
Se a frase estiver consistentemente alinhada com as bússolas secretas, o sistema diz: "Sim, isso é uma marca d'água!".

Resumo dos Resultados (O que os testes mostraram)

Qualidade: O texto gerado pelo PMARK é tão bom quanto o texto normal. Ninguém percebe que foi modificado.
Robustez: Mesmo que você peça para um outro modelo de IA reescrever o texto inteiro (paráfrase), o PMARK continua detectável. Ele superou todos os métodos anteriores em até 44% de resistência a ataques.
Eficiência: Ele é mais rápido e gasta menos recursos computacionais do que os métodos antigos que tentavam fazer a mesma coisa.

Em poucas palavras:

O PMARK é como colocar um tatuagem invisível na alma de uma frase, em vez de pintar a pele. Mesmo que você troque a roupa (palavras) da frase, a tatuagem (a marca d'água) continua lá, garantindo que você sabe quem é o verdadeiro autor, sem estragar a beleza da frase. É a evolução da segurança para a era da Inteligência Artificial.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

A rápida evolução da Inteligência Artificial Generativa (GenAI) e dos Grandes Modelos de Linguagem (LLMs) levantou preocupações críticas sobre a rastreabilidade de textos gerados por IA e a proteção de direitos autorais. Embora a marcação d'água (watermarking) seja uma solução promissora, as abordagens existentes enfrentam dois desafios principais:

Fragilidade em Nível de Token: Esquemas tradicionais de marcação d'água em nível de token (como o esquema "Green-Red") são facilmente removidos por ataques de paráfrase, onde um modelo não marcado reescreve o texto preservando o significado, mas alterando os tokens específicos que carregam a marca.
Distorção na Geração e Falta de Garantias Teóricas: Métodos de marcação d'água em nível semântico (SWM), como o SemStamp, tratam a frase completa como a unidade básica, oferecendo maior robustez. No entanto, eles geralmente dependem de amostragem por rejeição (rejection sampling). Isso introduz distorções significativas na distribuição original do texto (degradando a qualidade) e carece de garantias teóricas sólidas de que a distribuição marginal do texto marcado permanece idêntica à do texto não marcado. Além disso, a evidência da marca d'água em SWMs existentes é frequentemente esparsa, tornando-os vulneráveis mesmo a ataques de nível de palavra.

2. Metodologia: PMARK

O artigo propõe o PMARK, um novo esquema de marcação d'água em nível semântico que visa ser livre de distorção (distortion-free) e robusto através de um novo arcabouço teórico baseado em Funções Proxy (PFs).

Conceitos Fundamentais:

Função Proxy (PF): Uma função que mapeia uma frase (sentença) para um valor escalar. No PMARK, a PF é definida como a semelhança de cosseno entre o embedding da frase e um vetor pivô aleatório pré-definido.
Garantia de Ausência de Distorção: O método demonstra que, se a mediana da distribuição da PF for conhecida, é possível realizar um processo de amostragem que preserva a distribuição original do modelo (distortion-free). Isso é feito dividindo o espaço de candidatos em duas metades iguais (acima e abaixo da mediana) e selecionando aleatoriamente uma delas com base em uma chave secreta.

Abordagem Híbrida (Online vs. Offline):

O PMARK oferece duas versões para equilibrar eficiência e robustez:

PMARK Online (Estimativa Dinâmica):
- Gera $N$ frases candidatas.
- Estima dinamicamente a mediana da PF para essas candidatas.
- Aplica múltiplas restrições de canais (multi-channel constraints). Utiliza $b$ vetores pivô ortogonais (canais).
- A frase final é selecionada apenas se satisfizer as condições de todos os canais simultaneamente (baseado na chave aleatória de cada canal).
- Vantagem: Garante teoricamente a ausência de distorção e alta robustez.
PMARK Offline (Pré-definido):
- Aproveita a observação empírica de que, em espaços de alta dimensão, vetores aleatórios são quase ortogonais e a mediana da PF tende a ser zero.
- Usa zero como mediana a priori, eliminando a necessidade de estimar a mediana dinamicamente a cada geração.
- Seleciona a frase que maximiza a evidência da marca d'água (quantos canais satisfazem a condição).
- Vantagem: Reduz drasticamente o custo computacional e o consumo de tokens, tornando-o viável para implantação em larga escala, mantendo baixa distorção.

Detecção (Soft-z-Test):

Para a detecção, o PMARK utiliza um Soft-z-Test. Em vez de uma contagem binária rígida, ele emprega um mecanismo de contagem suave que considera a magnitude do desvio da PF em relação à mediana estimada (ou zero). Isso mitiga discrepâncias entre a geração e a detecção, aumentando a precisão sob ataques.

3. Principais Contribuições

Novo Arcabouço Teórico: Unifica os métodos existentes de SWM através do conceito de Função Proxy, fornecendo fundamentos analíticos sólidos para avaliação de desempenho e prova de ausência de distorção.
Identificação da Esparsidade: Demonstra que a baixa densidade de evidência da marca d'água é a causa principal da vulnerabilidade dos SWMs atuais a ataques adversariais.
Restrições de Múltiplos Canais: Introduz o uso de múltiplos canais (vetores pivô ortogonais) para aumentar a densidade da evidência da marca d'água, melhorando significativamente a robustez sem sacrificar a qualidade do texto.
Versões Online e Offline: Apresenta uma versão online com garantias teóricas de distorção zero e uma versão offline otimizada que reduz o custo computacional, sendo a primeira abordagem SWM a oferecer tais garantias teóricas combinadas com alta eficiência.

4. Resultados Experimentais

Os experimentos foram realizados em modelos como OPT-1.3B e Mistral-7B nos conjuntos de dados C4 e BOOKSUM, comparando o PMARK com o estado da arte (SOTA) em nível de token (ex: KGW, UPV) e nível semântico (ex: SemStamp, k-SemStamp).

Robustez:
- O PMARK superou consistentemente todos os baselines em ataques de paráfrase (usando GPT-3.5-turbo, Parrot e Pegasus).
- No Mistral-7B, o PMARK Online alcançou uma taxa de verdadeiros positivos (TP@FP1%) de 96.8% e 95.2% após paráfrase com GPT, superando o melhor baseline semântico (SemStamp) em 20.8% e 26.0%, respectivamente.
- Mostrou-se extremamente robusto contra ataques de nível de palavra (deleção e substituição de sinônimos), onde métodos anteriores falhavam devido à esparsidade da evidência.
Qualidade do Texto (Distorção):
- O PMARK manteve uma qualidade de texto superior, medida pela Perplexidade (PPL).
- Na versão Online, obteve o PPL mais baixo no benchmark BOOKSUM, superando o melhor baseline de nível de token (EXP) em quase 0.7 pontos no Mistral-7B.
- A versão Offline também manteve PPL competitivo, muito próximo do texto não marcado.
Eficiência Computacional:
- A versão Online do PMARK requer apenas 20% dos recursos (consumo de tokens) em comparação com esquemas semânticos anteriores de SOTA para atingir níveis similares de detecção.
- A versão Offline é ainda mais eficiente, consumindo menos tokens que o k-SemStamp enquanto mantém robustez competitiva.

5. Significado e Impacto

O PMARK representa um avanço significativo no campo da marcação d'água para LLMs:

Paradigma de Detecção: Oferece um novo paradigma que resolve o dilema clássico entre robustez, qualidade do texto e eficiência computacional.
Aplicabilidade Prática: Ao eliminar a necessidade de rejeição massiva de amostras e fornecer garantias teóricas de não distorção, o PMARK torna a marcação d'água semântica viável para implantação em cenários do mundo real.
Segurança: A introdução de restrições de múltiplos canais aumenta drasticamente a dificuldade de remoção da marca d'água por atacantes, protegendo melhor a propriedade intelectual e a rastreabilidade de conteúdo gerado por IA.

Em resumo, o PMARK estabelece um novo padrão para a detecção de texto gerado por máquinas, combinando rigor teórico com desempenho empírico superior.