Arbiter: Detecting Interference in LLM Agent System Prompts

Each language version is independently generated for its own context, not a direct translation.

Imagina que los agentes de IA (como los que escriben código para ti) son como obreros muy inteligentes que trabajan en una obra. Pero hay un problema: nadie les ha dado un manual de instrucciones claro. En su lugar, tienen un "prompt del sistema", que es básicamente una constitución o un libro de reglas gigante que les dice qué hacer, qué no hacer y cómo comportarse.

El problema es que estos libros de reglas están escritos por humanos, a veces por diferentes equipos, y nadie los ha revisado. Contienen contradicciones, instrucciones confusas y agujeros que hacen que el obrero (la IA) se confunda, pero como la IA es muy "amable", intenta adivinar qué hacer en lugar de decir "¡Oye, esto no tiene sentido!".

Aquí es donde entra Arbiter, el nuevo sistema que presentan en este paper.

¿Qué es Arbiter? (El Inspector de Obras)

Piensa en Arbiter como un inspector de construcción super-rápido y barato que revisa esos manuales de instrucciones antes de que empiece el trabajo.

El sistema funciona de dos formas, como si tuviera dos tipos de ojos:

El Ojo Lógico (Evaluación Dirigida):
- Imagina que tomas el manual y lo cortas en pedacitos. Luego, usas una regla estricta: "Si en la página 1 dice 'Usa siempre el martillo' y en la página 50 dice 'Nunca uses el martillo', ¡ALERTA! Hay un error".
- Este ojo busca contradicciones obvias, como si fuera un corrector ortográfico que busca errores de lógica. Encontraron 21 errores graves en el manual de Claude Code (el de Anthropic).
El Ojo Curioso (Rastrillaje Indirecto):
- Aquí es donde se pone divertido. En lugar de usar reglas fijas, Arbiter le pide a 10 robots diferentes (distintas IAs) que lean el manual y digan: "¿Qué te parece raro o interesante aquí?".
- Como cada robot ha sido entrenado de forma distinta, uno se fija en el dinero, otro en la seguridad, otro en la memoria. Uno puede decir: "Oye, si borras el historial, se te olvidan las preferencias del usuario". Otro puede decir: "Aquí hay una forma de gastar todo el presupuesto de la empresa".
- Al usar muchos robots diferentes, descubren cosas que un solo robot o un humano nunca vería.

¿Qué encontraron? (Los Tres Tipos de Manuales)

El paper descubre que la forma en que está escrito el manual determina el tipo de error que tiene. Es como la arquitectura de un edificio:

El Manual "Monolítico" (Todo en uno, como Claude Code):
- Es un libro gigante de 1,490 páginas.
- El problema: Como es tan grande y lo escribieron muchos equipos diferentes, hay secciones que se pelean entre sí. Por ejemplo, una sección dice "Usa siempre esta herramienta" y otra dice "Nunca la uses".
- La analogía: Es como una casa donde el fontanero instaló tuberías que chocan con las del electricista porque nadie revisó el plano final.
El Manual "Plano" (Simple, como Codex CLI):
- Es corto y directo (298 páginas).
- El problema: Al ser tan simple, tiene menos errores, pero también hace menos cosas.
- La analogía: Es una cabaña pequeña. No tiene fugas porque no tiene muchas tuberías, pero tampoco tiene piscina ni jacuzzi.
El Manual "Modular" (Piezas ensambladas, como Gemini CLI):
- Está hecho de piezas que se unen al momento de usarlo.
- El problema: Cada pieza funciona bien por sí sola, pero cuando se unen, hay un hueco.
- El hallazgo estrella: Descubrieron que en el manual de Google, había una regla que decía "Guarda las preferencias del usuario" y otra que decía "Cuando el espacio se llene, borra todo y guarda un resumen". El resumen no tenía espacio para las preferencias.
- La consecuencia: Si un usuario guardaba sus gustos, al día siguiente, la IA los olvidaba para siempre. ¡Y Google ya había arreglado el síntoma (que la IA se colgaba) pero no el verdadero problema (que se borraban los datos)!

¿Por qué es importante esto?

La IA no puede juzgarse a sí misma: Si le pides a la IA que revise sus propias reglas, ella intentará "suavizar" los errores para que parezcan lógicos. Necesitamos un juez externo.
Es increíblemente barato: Analizar los manuales de tres gigantes tecnológicos (Google, OpenAI, Anthropic) costó 27 centavos de dólar. Menos de lo que cuesta un café. Es menos de 3 minutos de trabajo de un humano.
Necesitamos "Linters" para la IA: Así como los programadores usan herramientas para revisar su código antes de lanzarlo, necesitamos herramientas para revisar los "prompts" de la IA.

En resumen

Este paper nos dice que los "cerebros" de nuestras IAs (sus instrucciones) están llenos de agujeros, contradicciones y olvidos, y que nadie los está revisando. Arbiter es la herramienta que demuestra que podemos encontrar estos errores de forma automática, barata y muy efectiva, usando un equipo de "detectives" (diferentes IAs) que se complementan entre sí.

Es como decir: "Oye, hemos construido un coche muy rápido, pero el manual de instrucciones tiene una página que dice 'pisa el freno' y otra que dice 'pisa el acelerador' al mismo tiempo. Vamos a arreglarlo antes de que alguien se estrelle".

Arbiter: Detecting Interference in LLM Agent System Prompts

¿Qué es Arbiter? (El Inspector de Obras)

¿Qué encontraron? (Los Tres Tipos de Manuales)

¿Por qué es importante esto?

En resumen

1. El Problema: Prompts como Artefactos de Software Sin Pruebas

2. Metodología: El Marco Arbiter

A. Evaluación Dirigida (Arqueología de Prompts)

B. Escaneo Indirecto (Multi-Model Scouring)

C. Análisis Estructural (AST)

3. Contribuciones Clave

4. Resultados Principales

Hallazgos Cuantitativos

Correlación entre Arquitectura y Fallos

Complementariedad de Modelos

Caso de Estudio: Gemini CLI

5. Significado e Implicaciones

Arbiter: Detecting Interference in LLM Agent System Prompts

¿Qué es Arbiter? (El Inspector de Obras)

¿Qué encontraron? (Los Tres Tipos de Manuales)

¿Por qué es importante esto?

En resumen

1. El Problema: Prompts como Artefactos de Software Sin Pruebas

2. Metodología: El Marco Arbiter

A. Evaluación Dirigida (Arqueología de Prompts)

B. Escaneo Indirecto (Multi-Model Scouring)

C. Análisis Estructural (AST)

3. Contribuciones Clave

4. Resultados Principales

Hallazgos Cuantitativos

Correlación entre Arquitectura y Fallos

Complementariedad de Modelos

Caso de Estudio: Gemini CLI

5. Significado e Implicaciones

Más como este

PnLCalib: Sports Field Registration via Points and Lines Optimization

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

Sparse Variational Student-t Processes for Heavy-tailed Modeling

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

DRUPI: Dataset Reduction Using Privileged Information