Toward Securing AI Agents Like Operating Systems

Autores originales: Lukas Pirch, Micha Horlboge, Patrick Großmann, Syeda Mahnur Asif, Klim Kireev, Thorsten Holz, Konrad Rieck

Publicado 2026-05-15✓ Author reviewed ⓘ

📖 6 min de lectura🧠 Análisis profundo

Ver en arXiv ↗PDF ↗

CC BY 4.0

Autores originales: Lukas Pirch, Micha Horlboge, Patrick Großmann, Syeda Mahnur Asif, Klim Kireev, Thorsten Holz, Konrad Rieck

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que has contratado a un asistente personal súper inteligente e increíblemente entusiasta llamado "Agente". Este asistente puede leer tus correos electrónicos, gestionar tu calendario, reservar vuelos e incluso escribir código por ti. Es como tener un empleado mágico que nunca duerme.

Pero aquí está el truco: le diste a este empleado las llaves de toda tu casa, tu cuenta bancaria y tu diario. Si un ladrón astuto engaña al asistente haciéndole creer que es tú, o lo convence de abrir la puerta trasera, el ladrón obtiene todo.

Este es el problema central que aborda el artículo. Los autores argumentan que estamos construyendo estos agentes de IA como si fueran criaturas mágicas totalmente nuevas, pero en realidad deberíamos tratarlos como Sistemas Operativos (el software que ejecuta tu computadora, como Windows o macOS).

Aquí está el desglose de sus hallazgos, utilizando analogías simples:

1. La Gran Idea: El Agente es el Sistema Operativo

Los autores dicen: "Deja de pensar en la IA solo como un chatbot. Piensa en ella como el SO de tu vida digital".

La IA (LLM) es el Usuario: En una computadora, el usuario escribe comandos. En un agente de IA, el Modelo de Lenguaje Grande (el "cerebro") es quien escribe los comandos. Pero al igual que un usuario humano puede ser engañado por un correo de phishing, una IA puede ser engañada por un prompt de "jailbreak".
Las Herramientas son Llamadas al Sistema: Cuando haces clic en "Imprimir" en tu computadora, el SO verifica si tienes permiso. Cuando una IA quiere "enviar un correo electrónico", eso es una herramienta. El artículo argumenta que estas herramientas deben tratarse como llamadas al sistema estrictas, no como comandos sin restricciones.
El Entorno de Ejecución es el Núcleo: La parte del software que realmente ejecuta el código es el "Núcleo". En una computadora segura, el Núcleo es el jefe. Decide quién tiene acceso a qué. En los agentes de IA actuales, el "Núcleo" suele ser demasiado amable y permite que el "Usuario" (la IA) haga lo que quiera, incluso si es peligroso.

2. El Problema: La Fiesta de "Casa Abierta"

El artículo examina agentes de IA populares (como OpenClaw y sus parientes) y descubre que están construidos como una casa abierta donde cualquiera puede entrar y tocar cualquier cosa.

Sin Muros: En una computadora segura, los diferentes programas están aislados. Si un virus infecta tu aplicación de calculadora, no debería poder leer tus archivos bancarios. Pero en estos agentes de IA, la "calculadora" (una herramienta) y los "archivos bancarios" (memoria) están todos en la misma habitación. Si la IA se confunde, puede mezclarlos accidentalmente (o maliciosamente).
La Falacia del "Confía en Mí": Estos agentes dependen de que la IA "recuerde" ser segura. Tienen reglas como "No borres archivos", pero están escritas simplemente en inglés. Si un hacker susurra un truco a la IA, esta olvida la regla. Es como pedirle a un guardia que haga la guardia pero decirle: "Solo usa tu mejor criterio".
El Riesgo de "Terceros": Estos agentes te permiten instalar "habilidades" (como aplicaciones). Imagina que pudieras descargar una "Aplicación del Clima" que secretamente tuviera una puerta trasera a tu cuenta bancaria. El artículo encontró que muchos de estos agentes te permiten instalar estas habilidades sin verificar si son seguras.

3. El Experimento: Rompiendo los Agentes

Los investigadores tomaron cuatro agentes de IA populares e intentaron romperlos, actuando como un hacker con un nivel modesto de habilidad. No necesitaban ser genios; solo necesitaban saber cómo estaba construida la "casa".

Lo que encontraron:

OpenClaw (El Agente "Vanilla"): Este era el más popular. Fue vulnerable a cada uno de los ataques que probaron los investigadores. Fue como dejar la puerta delantera, la puerta trasera y las ventanas abiertas de par en par.
IronClaw (El Agente de "Seguridad"): Este intentó ser más seguro. Puso algunas herramientas en una "caja de arena" (sandbox) (una caja de vidrio donde no pueden tocar el resto de la casa). Lo hizo mejor, pero los investigadores aún encontraron formas de engañarlo o romper el vidrio.
Nanobot (El Agente "Mínimo"): Este tenía muy poco código, esperando que menos código significara menos errores. Pero incluso con una base de código pequeña, aún carecía de los "muros" básicos necesarios para mantener los datos separados.
NemoClaw (El Agente "Envoltorio"): Este puso todo el agente dentro de un contenedor seguro (como un contenedor de envío). Fue el más difícil de romper, pero los investigadores aún encontraron una manera de echar un vistazo dentro o engañarlo.

El Resultado Aterrador: Incluso las versiones "seguras" fallaron en cosas básicas, como evitar que un usuario lea las notas privadas de otro usuario, o impedir que el agente envíe mensajes a extraños.

4. La Solución: Tomando Prestado del Pasado

La conclusión principal del artículo es simple: No necesitamos inventar nueva magia para solucionar esto. Solo necesitamos usar las reglas de seguridad que hemos conocido durante 50 años.

Los sistemas operativos han resuelto exactamente estos problemas antes. Los autores sugieren aplicar estas reglas antiguas a la IA:

Aislamiento: Pon cada herramienta en su propia caja de vidrio (sandbox) para que no pueda tocar otras herramientas o tus archivos privados a menos que se permita explícitamente.
Mínimo Privilegio: Solo porque el agente puede leer tu correo electrónico no significa que deba. Dale solo las llaves que necesita para la tarea específica en cuestión.
Registro Endurecido: Mantén un registro de todo lo que hace el agente, pero asegúrate de que el agente no pueda borrar ni cambiar esos registros (como una cámara de seguridad a prueba de manipulaciones).
Límites Estrictos: No permitas que la IA decida qué es seguro. El "Núcleo" (el sistema) debe hacer cumplir las reglas, no el "cerebro" de la IA.

Resumen

El artículo argumenta que los agentes de IA se construyen actualmente como fronteras salvajes y sin regulación. Son poderosos pero peligrosos porque mezclan datos sensibles con instrucciones no confiables.

Los autores dicen: "Deja de intentar hacer que la IA sea 'más inteligente' para ser segura. En su lugar, construye el sistema a su alrededor como un Sistema Operativo seguro". Si tratamos a la IA como un usuario que necesita ser vigilado y restringido por un guardia de seguridad estricto (el SO), podemos hacer que estas herramientas poderosas sean seguras para usar en nuestros hogares y empresas.

La Conclusión: Estamos construyendo empleados digitales con llaves maestras para nuestras vidas, pero aún no hemos construido las cerraduras, las vallas ni los guardias de seguridad. Es hora de tomar prestados los planos de los expertos en seguridad informática que han estado construyendo esas cerraduras durante décadas.

1. La Gran Idea: El Agente es el Sistema Operativo

2. El Problema: La Fiesta de "Casa Abierta"

3. El Experimento: Rompiendo los Agentes

4. La Solución: Tomando Prestado del Pasado

Resumen

Resumen Técnico: Hacia la Seguridad de Agentes de IA como Sistemas Operativos

Declaración del Problema

Metodología

Contribuciones Clave

Resultados

Significancia y Afirmaciones

Toward Securing AI Agents Like Operating Systems

1. La Gran Idea: El Agente es el Sistema Operativo

2. El Problema: La Fiesta de "Casa Abierta"

3. El Experimento: Rompiendo los Agentes

4. La Solución: Tomando Prestado del Pasado

Resumen

Resumen Técnico: Hacia la Seguridad de Agentes de IA como Sistemas Operativos

Declaración del Problema

Metodología

Contribuciones Clave

Resultados

Significancia y Afirmaciones

Más como este