Expert Selections In MoE Models Reveal (Almost) As Much As Text

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un restaurante gigante y muy famoso (el modelo de Inteligencia Artificial) donde miles de chefs expertos (los "expertos" o experts) trabajan juntos para cocinar platos (generar texto).

En este restaurante, no todos los chefs cocinan todo el tiempo. Cuando llega un pedido (una palabra o token), el gerente (el router) decide rápidamente: "¡Esta palabra la cocina el Chef de Matemáticas y el Chef de Historia!". Solo esos dos chefs se activan para esa palabra específica.

El Problema: El Rastro de los Chefs

Lo que descubrieron los autores de este paper es algo muy inquietante: incluso si nadie ve el plato final ni la receta, solo mirar qué chefs se activaron es suficiente para adivinar qué palabra se estaba cocinando.

Es como si, en lugar de ver el menú, un espía solo pudiera ver una lista de nombres de los chefs que se levantaron de sus sillas. Aunque la lista sea corta y parezca inofensiva, los investigadores demostraron que con la inteligencia artificial adecuada, pueden reconstruir el texto original con una precisión asombrosa.

¿Cómo lo hicieron? (La Analogía del Detective)

El Viejo Método (Regresión Logística): Imagina un detective novato que mira la lista de chefs y dice: "Bueno, si están cocinando Matemáticas y Historia, probablemente sea la palabra 'cálculo' o 'batalla'". Funciona un poco, pero falla mucho (solo acierta el 63% de las veces).
El Nuevo Método (Red Neuronal Avanzada): Ahora, imagina un detective genio con una supercomputadora. Este detective no solo mira la lista de chefs de una palabra, sino que analiza la secuencia completa de quién cocinó qué a lo largo de toda la frase.
- El detective aprende patrones: "Ah, cuando el Chef de Historia cocina seguido del Chef de Programación, casi siempre significa que la frase es sobre 'historia de la computación'".
- Resultado: Este detective genio acertó el 91% de las palabras solo mirando qué chefs trabajaron. ¡Es casi como leer el texto original!

¿Dónde podría pasar esto en la vida real?

El paper explica que esto no es solo teoría, sino un riesgo real en situaciones como:

Inferencia Distribuida (El Restaurante con Múltiples Sucursales): Si el restaurante está dividido en varias cocinas en diferentes edificios (servidores), un empleado malintencionado en una sucursal podría ver qué chefs de otras sucursales se activaron y deducir lo que estás escribiendo.
Fugas por "Ruido" (Escuchas): Imagina que los chefs hacen un ruido diferente cuando se levantan (consumen electricidad o generan calor). Un espía con sensores podría escuchar el "clic" de los chefs y saber quiénes trabajaron, y luego usar nuestro detective genio para leer tu mensaje.

¿Qué podemos hacer? (Las Soluciones)

Los autores nos dicen que debemos tratar la lista de "quién trabajó" (las selecciones de expertos) con el mismo secreto que el texto mismo.

Ocultar la lista: No deberíamos dejar que nadie vea qué expertos se activaron, igual que no dejamos que nadie vea tu carta de crédito.
Añadir "Ruido": Podríamos hacer que los chefs se levanten de forma un poco aleatoria o que hagan "falsos movimientos" para confundir al espía. Esto no elimina el riesgo por completo, pero hace que sea mucho más difícil adivinar el mensaje.

En Resumen

Este estudio nos advierte que en los modelos de IA modernos (llamados MoE), la forma en que se organizan las piezas internas es tan sensible como el contenido mismo. Si alguien puede ver "qué piezas se movieron", puede reconstruir casi todo el mensaje. Es como si, en un juego de cartas, el simple hecho de saber qué cartas sacaste del mazo te delatara completamente, incluso sin ver las cartas en tu mano.

La lección: En el futuro, los desarrolladores de IA deben proteger no solo lo que la IA dice, sino también cómo decide decirlo.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Ataque de Reconstrucción de Texto a partir de Selecciones de Expertos en Modelos MoE

1. Problema y Contexto

Los modelos de lenguaje grandes (LLM) modernos utilizan arquitecturas Mezcla de Expertos (MoE) para mejorar la eficiencia computacional, activando solo un subconjunto de parámetros (expertos) por token. En estos modelos, un enrutador decide qué expertos procesan cada token.

El problema central identificado en este trabajo es que las decisiones de enrutamiento (qué expertos se seleccionan para cada token) no son solo un mecanismo interno de optimización, sino que actúan como una fuga de información significativa. Los autores demuestran que un adversario que observe únicamente las selecciones de expertos (sin acceso a los estados ocultos, logits o salidas de texto) puede reconstruir el texto original con alta fidelidad. Esto plantea un riesgo grave de privacidad en despliegues distribuidos, inferencia en la nube y canales laterales físicos.

2. Metodología y Ataque

El ataque se basa en la inversión de la señal de enrutamiento para recuperar el texto subyacente.

Modelo de Amenaza:
- Señal Observada: El adversario observa las selecciones de expertos (índices) para cada token en una o varias capas del modelo. No tiene acceso a los logits del enrutador, pesos, estados ocultos ni salidas de expertos.
- Conocimiento Auxiliar: Se asume que el atacante conoce el tokenizador, la configuración de enrutamiento (número de expertos $n$ , número de activados $k$ ) y la familia del modelo.
- Datos de Entrenamiento: El atacante entrena un decodificador utilizando pares de "(secuencia de texto, rastro de selección de expertos)" obtenidos de un modelo de la misma familia o de registros internos.
Enfoques de Decodificación:
1. MLP de 3 Capas (Por Token): Un clasificador simple que trata cada token de forma independiente, mapeando la selección de expertos de un solo token a una distribución sobre el vocabulario.
2. Decodificador Basado en Transformer (Secuencial): Un modelo encoder-only que consume el rastro completo de selección de expertos de una secuencia de tokens. Este modelo aprovecha las dependencias contextuales entre posiciones y capas, convirtiendo las selecciones en vectores binarios y aplicando atención auto-referencial no causal.
Configuración Experimental:
- Modelo Base: gpt-oss-20b (20B parámetros, 32 expertos, enrutamiento top-4, 24 capas).
- Datos: Entrenamiento en 100M de tokens de OpenWebText y evaluación en un conjunto de prueba de 10M tokens.
- Entrada: Rastros de enrutamiento de 32 tokens.

3. Resultados Clave

Los resultados demuestran que las selecciones de expertos contienen suficiente información para una reconstrucción casi perfecta del texto:

Precisión de Reconstrucción:
- MLP (3 capas): Logra una precisión Top-1 del 63.1% (80.3% Top-5, 84.3% Top-10).
- Decodificador Transformer: Logra una precisión Top-1 del 91.2% (94.3% Top-5, 94.8% Top-10) en secuencias de 32 tokens.
- Nota: El rendimiento del Transformer supera significativamente al MLP, demostrando la importancia de modelar las dependencias secuenciales y entre capas.
Análisis de Información:
- Se calculó la entropía de las selecciones por capa. Aunque la entropía teórica máxima es alta (~363 bits por token), la entropía efectiva es menor debido a correlaciones.
- Las capas intermedias (alrededor de la capa 11) muestran patrones de enrutamiento distintos y menos redundancia mutua con las capas iniciales y finales, lo que sugiere que diferentes capas capturan diferentes aspectos semánticos del texto.
- La precisión de reconstrucción es robusta frente a la cantidad de datos de entrenamiento, aunque disminuye gradualmente con menos datos.
Robustez al Ruido:
- Se simuló ruido en las selecciones (reemplazando una fracción $p$ de las selecciones correctas por expertos aleatorios).
- A medida que aumenta el ruido, la precisión decae, pero el modelo sigue siendo capaz de recuperar información significativa incluso con niveles moderados de corrupción, lo que indica que la señal es muy informativa.

4. Contribuciones Principales

Nueva Superficie de Ataque: Se identifica y valida que las selecciones de expertos en MoE son una fuente de fuga de información crítica, comparable a la inversión de embeddings, pero con una señal discreta y de menor ancho de banda.
Métodos de Decodificación Avanzados: Se demuestra que los decodificadores secuenciales (Transformers) son mucho más efectivos que los clasificadores por token (MLP/Regresión Logística) para esta tarea, logrando una reconstrucción de alta fidelidad.
Escenarios Prácticos de Fuga: Se detallan vectores de ataque realistas donde estas selecciones pueden ser observadas:
- Inferencia Distribuida: Un host malicioso en un clúster que aloja una parte del modelo puede ver el enrutamiento.
- Canales Laterales Físicos: Medición de consumo de energía o emisiones electromagnéticas para inferir qué expertos se activan.
- MoE en Paralelismo de Pipeline: Detección de actividad en GPUs específicas que alojan expertos únicos.
Conexión Teórica: Se vincula el problema de la inversión de enrutamiento con la literatura existente sobre inversión de embeddings, tratando las selecciones de expertos como "embeddings discretos" de tokens y contexto.

5. Significado e Implicaciones

Privacidad de Datos: Las selecciones de expertos deben tratarse como datos sensibles. En entornos multi-tenant o distribuidos, exponer estos rastros es tan peligroso como exponer el texto de entrada o las salidas del modelo.
Diseño de Sistemas Confiables: Los despliegues de MoE deben evitar registrar, exportar o retornar las selecciones de expertos a menos que se apliquen las mismas medidas de seguridad que a los tokens.
Mitigaciones Propuestas:
- Añadir ruido a las decisiones de enrutamiento (aunque esto reduce la precisión de reconstrucción, no la elimina).
- Difuminar las huellas de ejecución (carga de trabajo balanceada, relleno de trabajo constante).
- Hardening de los canales laterales (aislamiento de cargas de trabajo, protección de contadores de rendimiento).
Limitaciones: El estudio se centra en secuencias cortas (32 tokens) y asume acceso a un modelo compatible para entrenamiento. La transferencia a familias de modelos diferentes o configuraciones de enrutamiento distintas no se ha evaluado exhaustivamente.

Conclusión: Este trabajo advierte que la eficiencia computacional de los modelos MoE no debe lograrse a costa de la privacidad. Las decisiones de enrutamiento, antes consideradas un detalle interno, son ahora un vector de ataque viable que permite la reconstrucción casi completa de prompts privados, requiriendo un rediseño de las prácticas de despliegue seguro.

Expert Selections In MoE Models Reveal (Almost) As Much As Text

El Problema: El Rastro de los Chefs

¿Cómo lo hicieron? (La Analogía del Detective)

¿Dónde podría pasar esto en la vida real?

¿Qué podemos hacer? (Las Soluciones)

En Resumen

Resumen Técnico: Ataque de Reconstrucción de Texto a partir de Selecciones de Expertos en Modelos MoE

1. Problema y Contexto

2. Metodología y Ataque

3. Resultados Clave

4. Contribuciones Principales

5. Significado e Implicaciones

Más como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance