Expert Selections In MoE Models Reveal (Almost) As Much As Text

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um restaurante gigante e super moderno chamado "Modelo de Linguagem". Quando você pede um prato (envia uma pergunta ou texto), o chef não cozinha tudo sozinho. Em vez disso, ele tem uma equipe de 32 chefs especialistas (os "Especialistas" ou Experts).

Para cada palavra que você diz, o "gerente do restaurante" (o Roteador) decide rapidamente quais 4 chefs vão cozinhar aquela palavra específica.

O Problema: O Roteiro Secreto

Até agora, achávamos que o segredo estava apenas no prato final (o texto gerado). Mas este artigo descobre algo assustador: o simples fato de saber quais chefs foram escolhidos para cada palavra é quase tão revelador quanto ouvir a própria palavra.

É como se, em vez de você ouvir a música, alguém pudesse deduzir a melodia inteira apenas olhando para a lista de quem tocou cada instrumento na orquestra.

A Descoberta: Decifrando o Código

Os autores do estudo criaram um "detetive digital" (um tipo de inteligência artificial) que aprendeu a fazer essa dedução. Eles treinaram esse detetive com milhões de exemplos de:

O Texto: A frase original.
O Roteiro: A lista de quais chefs foram escolhidos para cada palavra.

O resultado foi chocante:

Um detetive simples (uma rede neural básica) conseguiu adivinhar a palavra correta em 63% das vezes apenas olhando para a lista de chefs.
Um detetive mais esperto e complexo (um "transformador") conseguiu acertar 91% das palavras!

Isso significa que, se um hacker souber quais "especialistas" foram ativados no computador de um servidor, ele pode reconstruir o que você escreveu, mesmo sem ter acesso ao texto em si.

Como um Hacker faria isso na vida real?

O artigo explica algumas formas práticas de um invasor conseguir essa lista de "chefes escolhidos":

Inferência Distribuída (O Restaurante Dividido): Imagine que o restaurante é tão grande que a cozinha está espalhada por vários prédios. Se um prédio é controlado por um invasor mal-intencionado, ele pode ver quais pedidos foram enviados para os chefs do prédio dele e, com isso, deduzir o que você pediu.
Vazamento Físico (O Medidor de Energia): Às vezes, quando um chef específico trabalha, ele consome mais energia ou faz um barulho diferente. Um invasor com acesso físico ao servidor poderia medir o consumo de energia ou sinais elétricos para descobrir quais "chefes" estavam ativos e, assim, ler seu texto.

Por que isso é perigoso?

Se você está usando um modelo de IA para conversar sobre segredos médicos, senhas ou estratégias de negócios, e o sistema usa essa arquitetura de "Especialistas", o seu segredo pode estar vazando através desses sinais de roteamento.

É como se você estivesse sussurrando um segredo em um quarto, mas a cada palavra, você acendesse uma lâmpada diferente. Alguém do lado de fora, vendo apenas o padrão de luzes piscando, conseguiria ler o que você sussurrou.

Como nos proteger?

Os autores sugerem algumas medidas de segurança:

Tratar o Roteamento como Segredo: Não devemos expor a lista de quais especialistas foram usados, da mesma forma que não expomos o texto.
Adicionar "Ruído": Fazer com que o sistema escolha um especialista aleatório às vezes, ou adicionar "trabalho falso" para confundir quem está tentando medir o consumo de energia.
Isolar os Sistemas: Garantir que os dados de roteamento não saiam do servidor seguro.

Conclusão

A mensagem principal é simples: No futuro, a forma como uma IA decide "quem pensa" em cada palavra é tão sensível quanto a própria palavra. Se protegermos apenas o texto final, mas esquecermos de proteger o processo de decisão por trás dele, nossos segredos ainda estarão em risco.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Ataques de Reconstrução de Texto via Seleção de Especialistas em Modelos MoE

1. O Problema

Com o crescimento da escala dos Grandes Modelos de Linguagem (LLMs), arquiteturas Mixture-of-Experts (MoE) tornaram-se padrão para eficiência computacional. Nessas arquiteturas, apenas um subconjunto de parâmetros (especialistas) é ativado para cada token.
O artigo identifica uma vulnerabilidade crítica de privacidade: as decisões de roteamento (quais especialistas são selecionados para cada token) contêm informações suficientes para reconstruir o texto original. Embora essas seleções sejam sinais discretos e de menor largura de banda do que os vetores de embedding completos ou estados ocultos, o trabalho demonstra que elas vazam substancialmente mais informações do que se entendia anteriormente, permitindo ataques de inversão de alta fidelidade.

2. Metodologia e Configuração do Ataque

Os autores propõem um ataque de reconstrução de texto baseado apenas nas seleções de especialistas, sem acesso aos logits do roteador, pesos ou estados ocultos.

Modelo de Ameaça:
- Sinal Observado: O adversário observa apenas os índices dos especialistas selecionados (top-k) para cada token em uma ou mais camadas do modelo.
- Conhecimento Auxiliar: O adversário conhece o tokenizador, a configuração de roteamento (número de especialistas, valor de k) e a família do modelo (ex: gpt-oss-20b).
- Dados de Treinamento: O adversário possui pares de treinamento "(texto, trilha de seleção de especialistas)" obtidos de um modelo da mesma família ou de logs internos de inferência distribuída.
Superfícies de Ataque (Como obter as trilhas):
- Inferência Distribuída: Um host malicioso em um cluster pode observar o roteamento entre dispositivos.
- Canais Laterais Físicos: Medições de consumo de energia, emissões eletromagnéticas ou contadores de desempenho de GPU (como demonstrado em trabalhos anteriores como MoEcho) podem inferir quais especialistas estão ativos.
- MoE em Pipeline: Se especialistas estiverem fragmentados em diferentes nós de data center, a atividade do GPU pode revelar a identidade do especialista.
Abordagem de Decodificação:
Os autores treinaram dois tipos de decodificadores para mapear a trilha de roteamento ( $I$ ) de volta ao texto ( $x$ ):
1. MLP de 3 Camadas: Um classificador que trata cada token independentemente, mapeando a seleção de especialistas de um único token para uma distribuição sobre o vocabulário.
2. Decodificador Baseado em Transformer: Um modelo encoder-only que consome a trilha completa de especialistas de uma sequência inteira (32 tokens), explorando dependências contextuais entre posições. O modelo converte as seleções em vetores binários, aplica MLPs por camada e usa atenção não causal para prever a sequência de tokens.

3. Principais Resultados

Os experimentos foram realizados utilizando o conjunto de dados OpenWebText com o modelo gpt-oss-20b (32 especialistas, roteamento top-4, 24 camadas).

Precisão de Reconstrução:
- MLP (3 camadas): Alcançou 63,1% de precisão top-1 (80,3% top-5). Isso já supera significativamente métodos anteriores baseados em regressão logística.
- Transformer (Decodificador de Sequência): Alcançou 91,2% de precisão top-1 e 94,8% de precisão top-10 em sequências de 32 tokens.
- Impacto dos Dados: O modelo foi treinado com 100 milhões de tokens e testado em um conjunto de 10 milhões de tokens. A precisão degrada-se gradualmente com menos dados de treinamento, mas permanece alta.
Análise de Informação:
- A entropia estimada das seleções de especialistas é alta (limite superior de ~363 bits por token para 24 camadas), embora a entropia efetiva seja menor devido a correlações entre camadas.
- Camadas intermediárias (por volta da camada 11) mostram regimes de roteamento distintos, enquanto camadas iniciais são altamente redundantes entre si.
- A reconstrução é altamente dependente da frequência do token: tokens comuns são reconstruídos com maior precisão do que tokens raros.
Robustez a Ruído:
- Adicionar ruído (substituindo aleatoriamente uma fração das seleções de especialistas) reduz a precisão, mas não elimina a capacidade de reconstrução. Mesmo com taxas de ruído significativas, a precisão top-10 permanece viável.

4. Contribuições Chave

Demonstração de Vazamento de Informação: Prova que as decisões de roteamento em MoE, anteriormente consideradas apenas como sinais de controle internos, são vetores de vazamento de dados sensíveis comparáveis aos embeddings.
Avanço em Técnicas de Inversão: Supera a literatura anterior (que usava regressão logística) ao introduzir decodificadores baseados em MLP e Transformer, demonstrando que a modelagem de sequências é crucial para a recuperação de texto.
Conexão Teórica: Estabelece uma ligação direta entre a seleção de especialistas e a literatura de inversão de embeddings, tratando as seleções como "embeddings discretos" de baixo nível.
Análise de Superfícies de Ataque: Detalha cenários práticos onde essas trilhas podem ser capturadas (inferência distribuída, canais laterais físicos), indo além de ataques puramente teóricos.

5. Significado e Implicações

Privacidade em MoE: Os resultados sugerem que, em implantações de MoE, as seleções de especialistas devem ser tratadas com o mesmo nível de confidencialidade que o texto de entrada e saída.
Risco de Privacidade do Usuário: Em cenários de inferência distribuída ou multi-tenancy, um ator malicioso com acesso parcial ao sistema (ou através de canais laterais) pode recuperar prompts privados, chaves de API ou dados sensíveis inseridos pelo usuário.
Mitigações Necessárias: O artigo recomenda:
- Não expor, registrar ou exportar seleções de especialistas por token.
- Implementar técnicas de ofuscação, como adicionar ruído aos logits de roteamento, usar padding de trabalho constante ou embaralhar periodicamente a identidade dos especialistas.
- Proteger contra canais laterais físicos (blindagem, isolamento de cargas de trabalho).

Conclusão: O trabalho alerta a comunidade de IA para uma nova classe de vulnerabilidades em arquiteturas eficientes (MoE). A eficiência computacional ganha com o MoE não deve comprometer a privacidade, exigindo novas práticas de engenharia para proteger os sinais de roteamento que, paradoxalmente, revelam quase tanto quanto o próprio texto.

Expert Selections In MoE Models Reveal (Almost) As Much As Text

O Problema: O Roteiro Secreto

A Descoberta: Decifrando o Código

Como um Hacker faria isso na vida real?

Por que isso é perigoso?

Como nos proteger?

Conclusão

Resumo Técnico: Ataques de Reconstrução de Texto via Seleção de Especialistas em Modelos MoE

1. O Problema

2. Metodologia e Configuração do Ataque

3. Principais Resultados

4. Contribuições Chave

5. Significado e Implicações

Mais como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance