Log Probability Tracking of LLM APIs

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los modelos de Inteligencia Artificial (como los que usas para escribir correos o crear imágenes) son como grandes cocinas de restaurantes que tienen un menú fijo. Tú, como cliente, esperas que el "plato" que te sirvan hoy sea exactamente el mismo que el que te sirvieron ayer. Si el chef cambia la receta sin avisarte, tu experiencia cambia, y eso puede ser un problema si estás usando esos platos para cosas importantes (como escribir código o investigar).

El problema es que los dueños de estas cocinas (las empresas que ofrecen la IA) a veces cambian los ingredientes o la receta en secreto para ahorrar dinero, mejorar la velocidad o arreglar errores, pero no te avisan. Y hasta ahora, no había una forma barata de saber si te estaban sirviendo el mismo plato o uno nuevo.

Aquí es donde entra este paper, que propone una solución genial y barata llamada "Seguimiento de Probabilidad Logarítmica" (LogProb Tracking).

La Analogía: El "Susurro" del Chef

Imagina que cuando pides un plato, el chef no solo te da el plato final (la palabra que la IA escribe), sino que también te susurra cuán seguro estaba de que iba a elegir esa palabra.

El método antiguo (caro y lento): Para ver si el chef cambió la receta, los investigadores anteriores pedían 100 platos diferentes, los probaban uno por uno y comparaban los sabores. Era como contratar a un equipo de 50 catadores de vino para ver si cambiaron el vino. ¡Muy caro y lento!
El nuevo método (barato y rápido): Los autores dicen: "¡Espera! No necesitamos probar todo el menú. Solo necesitamos escuchar el susurro del chef sobre la primera palabra que dice".

¿Cómo funciona el "Susurro"?

Cuando una IA genera una palabra, en su "cerebro" (el modelo) hay una lista de todas las palabras posibles con un número que indica qué tan probable es que elija cada una. A esto se le llama logprob.

El truco es que estos números no son fijos; fluctúan un poco como el clima (a veces llueve un poco, a veces hace sol, pero en promedio es similar). Sin embargo, si el chef cambia la receta (entrena el modelo un poco más, lo comprime o le añade un virus), esos "susurros" o números de probabilidad cambian de forma sistemática, incluso si la palabra final que sale es la misma.

La analogía del reloj:
Imagina que tienes dos relojes idénticos. Si los miras una vez, ambos marcan las 12:00. Pero si uno de ellos tiene un mecanismo interno ligeramente diferente (una receta cambiada), el "tic-tac" interno (la probabilidad) será diferente. El nuevo método escucha ese "tic-tac" en lugar de solo mirar la hora.

¿Qué descubrieron?

Es extremadamente sensible: Pueden detectar cambios tan pequeños como un solo paso de entrenamiento (como si el chef añadiera una pizca extra de sal a la receta). Los métodos antiguos ni siquiera notaban esto.
Es ridículamente barato: En lugar de pedir 100 platos, solo piden una sola palabra (un token). Esto hace que el monitoreo sea 1,000 veces más barato.
- Ejemplo: Monitorear un servicio durante un año con el método viejo costaría como $330 dólares. Con este nuevo método, cuesta $0.14 dólares. ¡Es como cambiar de un taxi de lujo a una bicicleta!
Funciona en la vida real: Los autores monitorearon cientos de servicios de IA durante meses y descubrieron 37 cambios secretos que las empresas no habían anunciado. ¡Casi todos ocurrieron en modelos que supuestamente eran "estables"!

El "Reto de los Cambios Pequeños" (TinyChange)

Como no existía una prueba para ver qué tan bien detectaban los cambios pequeños, los autores crearon su propio juego llamado TinyChange.

Imagina que tomas un modelo de IA y le haces cambios diminutos: le quitas un poco de peso, le añades un poco de ruido aleatorio o lo entrenas un poquito más.
Luego, lanzaron su método contra estos cambios.
Resultado: El método nuevo ganó por goleada, detectando cambios que los otros métodos ignoraban por completo.

¿Por qué importa esto?

Imagina que eres un investigador científico que usa una IA para analizar datos médicos. Si la IA cambia su "receta" en secreto, tus resultados de ayer podrían ser diferentes a los de hoy, y tu investigación perdería validez. O imagina un desarrollador de software que confía en que la IA siempre escribirá el mismo código; si cambia de repente, su aplicación podría romperse.

Este método es como un detector de humo barato y súper sensible para la IA. No te dice qué cambió exactamente (si fue un ingrediente nuevo o un cambio en la cocina), pero te avisa inmediatamente si algo ha cambiado, para que puedas investigar más a fondo.

En resumen

Los autores nos dicen: "No necesitas gastar una fortuna ni pedir miles de ejemplos para saber si la IA sigue siendo la misma. Solo necesitas escuchar el 'susurro' de su primera palabra. Es como tener un radar que detecta si el chef cambió la receta, incluso si el plato final parece igual".

Esto es un gran paso para la transparencia y la seguridad en el mundo de la Inteligencia Artificial.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Log Probability Tracking of LLM APIs", presentado en la conferencia ICLR 2026.

1. El Problema: Inconsistencia y Opacidad en las APIs de LLM

Los proveedores de APIs de Modelos de Lenguaje Grande (LLM) suelen ofrecer endpoints con versiones fijas, prometiendo a los usuarios (desarrolladores, investigadores y reguladores) que el modelo subyacente permanecerá consistente. Esta consistencia es vital para la fiabilidad de las aplicaciones y la reproducibilidad de la investigación.

Sin embargo, en la práctica, los usuarios carecen de mecanismos prácticos para verificar esta consistencia. Los proveedores pueden realizar cambios silenciosos por varias razones:

Optimización: Actualizaciones de hardware/software, cuantización para ahorrar costes o cambio a modelos más ligeros en picos de tráfico.
Seguridad y Comportamiento: Parches contra jailbreaks, actualizaciones de prompts del sistema o, en casos maliciosos, la inyección de backdoors.
Falta de Monitoreo: Los métodos de auditoría existentes son demasiado costosos para aplicarse a intervalos regulares en la amplia gama de APIs disponibles, dejando los cambios sin supervisión.

2. Metodología: Rastreo de Log-Probabilidades (Logprob Tracking - LT)

El artículo propone una nueva técnica llamada Logprob Tracking (LT) que utiliza las log-probabilidades (logprobs) de los tokens generados en lugar de los tokens mismos para detectar cambios.

Fundamentos Técnicos

Fuente de Información: Durante la inferencia, los LLMs generan un vector de logits (y sus log-probabilidades) para todo el vocabulario antes de muestrear el token final. Muchas APIs permiten solicitar los top-k logprobs.
El Desafío de la No-Determinidad: En la práctica, los logprobs no son deterministas; fluctúan entre solicitudes idénticas debido a variaciones en el batching, el hardware (diferentes GPUs) y el software de inferencia.
Solución Estadística: En lugar de comparar vectores de logprobs directamente (lo cual fallaría por la no-determinidad), los autores tratan cada logprob como una muestra de una distribución de probabilidad.
- Prueba de Hipótesis: Se utiliza una prueba de permutación de dos muestras basada en la distancia absoluta media entre los logprobs promedio de cada token.
- Procedimiento: Se envía un prompt idéntico a dos APIs (o la misma API en dos momentos distintos), solicitando la generación de un solo token. Se repite esto $N$ veces para construir distribuciones empíricas.
- Imputación Conservadora: Si un token aparece en una muestra pero no en otra (debido a la truncación top-k), se imputa su logprob con el valor mínimo de esa muestra, asumiendo que su valor real no es mayor.

Eficiencia

El método requiere enviar un prompt arbitrario (incluso una sola letra) y solicitar solo un token de salida. Esto reduce drásticamente el coste computacional y financiero en comparación con métodos que requieren generar respuestas largas o ejecutar benchmarks complejos.

3. Contribuciones Clave

Método Logprob Tracking (LT): Demuestran que un prompt de 1 token y los logprobs de 1 token de respuesta son suficientes para superar el rendimiento de detección y sensibilidad de los métodos existentes, a una fracción del coste.
BenchMark TinyChange: Introducen un nuevo benchmark diseñado específicamente para evaluar la sensibilidad de los métodos de auditoría ante cambios pequeños y realistas. Genera 58 variantes de modelos con diferentes intensidades de modificación (fine-tuning, ruido aleatorio, poda de pesos).
Evaluación Exhaustiva: Comparan LT contra dos métodos state-of-the-art (MET y MMLU-ALG) utilizando el benchmark TinyChange, demostrando una sensibilidad superior y un coste miles de veces menor.

4. Resultados Experimentales

Sensibilidad y Coste

Detección de Cambios Mínimos: LT puede detectar cambios tan pequeños como un solo paso de fine-tuning.
Comparación de Sensibilidad:
- En experimentos de poda de pesos, LT detecta cambios con una magnitud de $2^{-10}$ , mientras que los métodos baselines (MET y MMLU-ALG) requieren cambios de $2^{-1}$ y $2^{-4}$ respectivamente para lograr un rendimiento similar.
- Esto representa una mejora de sensibilidad de 2 a 3 órdenes de magnitud frente a los métodos existentes.
Reducción de Costes: El método es aproximadamente 1,000 veces más barato.
- Ejemplo: El coste anual de monitoreo horario con LT se estima en $0.14, frente a $146 para MET y $332 para MMLU-ALG (basado en precios de GPT-4.1).

Prompts Cortos

El estudio demuestra que la longitud del prompt tiene un impacto mínimo en la detección. Un prompt de un solo token ("x") es casi tan efectivo como prompts mucho más largos (33 tokens), validando la viabilidad de la detección ultraligera.

Monitoreo en el Mundo Real

Los autores aplicaron LT a 189 endpoints de APIs reales de 10 proveedores durante más de 4 meses, recolectando 1.7 millones de respuestas.

Hallazgos: Se identificaron 37 cambios sospechosos en 29 endpoints.
Transparencia: Casi todos los cambios detectados afectaron a modelos de pesos abiertos (open-weight), lo que sugiere que la opacidad en las actualizaciones es prevalente incluso cuando el modelo en sí es público.
Respuesta de Proveedores: Al contactar a los proveedores, la mayoría no confirmó los detalles, y algunos (como Nebius AI) admitieron realizar cambios regularmente sin notificación.

5. Significado e Implicaciones

Nueva Línea de Defensa: LT proporciona una herramienta de bajo coste y alta sensibilidad para la monitorización continua de la integridad de las APIs de LLM.
Transparencia: Al demostrar que es posible detectar cambios sutiles, el trabajo presiona a los proveedores para que sean más transparentes o incluyan soporte de logprobs de manera más sistemática.
Reproducibilidad Científica: Ofrece a los investigadores un mecanismo práctico para verificar que los modelos subyacentes no han cambiado durante sus experimentos, garantizando la validez de sus resultados.
Limitaciones: El método depende de que la API devuelva logprobs (aunque el 23% de los endpoints en OpenRouter lo soportan) y no distingue entre cambios de infraestructura y de modelo, aunque cualquier cambio sistemático afecta la reproducibilidad.

En conclusión, el artículo establece que el monitoreo continuo y económico de las APIs de LLM es factible mediante el análisis estadístico de las log-probabilidades, llenando una brecha crítica en la seguridad y fiabilidad de los sistemas de IA desplegados.