Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Este trabajo identifica y valida una nueva vulnerabilidad en los modelos de lenguaje grandes multimodales, demostrando que optimizar una función de pérdida para inducir inestabilidad numérica genera imágenes que degradan significativamente el rendimiento del modelo con perturbaciones mínimas, revelando un vector de fallo distinto a las perturbaciones adversarias tradicionales.

Wai Tuck Wong, Jun Sun, Arunesh Sinha

Publicado 2026-03-06
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este artículo es como una historia de detectives, pero en lugar de buscar un criminal que robe datos, los investigadores están buscando un "fantasma" que hace que los robots inteligentes se vuelvan locos sin que nadie se dé cuenta.

Aquí tienes la explicación de este estudio sobre la Inestabilidad Numérica Inducida en modelos de Inteligencia Artificial, contada de forma sencilla:

🕵️‍♂️ El Problema: El Robot que "Se le va la Pinza"

Imagina que tienes un robot superinteligente (un modelo de lenguaje multimodal) que puede ver fotos y responder preguntas sobre ellas. Es como un asistente personal que sabe todo.

Normalmente, si quieres engañar a este robot, le pones una "mancha" invisible en la foto (como un ruido de estática) para que confunda un perro con una tostadora. A esto se le llama ataque adversarial. Es como si alguien le pusiera unas gafas de sol extrañas al robot para que no vea bien.

Pero este paper descubre algo nuevo y más sutil:
No es que le pongan unas gafas raras. Es que el robot tiene un "defecto de fábrica" en su cerebro matemático. Los investigadores descubrieron cómo crear una imagen que, aunque se ve idéntica a la original para nuestros ojos, hace que el cerebro del robot cometa errores de cálculo tan pequeños que se acumulan como una bola de nieve, hasta que el robot empieza a alucinar cosas totalmente absurdas.

🧮 La Analogía: El Contador de Kilómetros de un Coche Viejo

Para entender qué es la "inestabilidad numérica", imagina un coche viejo con un contador de kilómetros digital que solo tiene espacio para 4 dígitos (0000 a 9999).

  1. La precisión limitada: Si el coche recorre 9999 km y hace 1 km más, el contador no puede mostrar "10000". Se desborda y vuelve a "0000". Eso es un error de precisión.
  2. El truco de los investigadores: En lugar de romper el coche, los investigadores encontraron una forma de conducir el coche por una ruta muy específica (modificando la imagen de entrada) donde el contador se queda "atascado" en los límites de su capacidad.
  3. El resultado: Aunque la ruta parece normal, el contador empieza a fallar en cada vuelta. Al final, el coche cree que ha recorrido 1 millón de kilómetros cuando en realidad solo ha dado una vuelta.

En el caso de la IA, los investigadores crean una imagen que fuerza al robot a hacer millones de cálculos matemáticos donde los números "se redondean" de forma incorrecta. Como el robot usa una versión "abreviada" de los números (para ir más rápido y ahorrar memoria), esos pequeños errores se multiplican y el robot termina diciendo cosas como: "Este gato está bebiendo agua de un grifo" cuando en realidad es una foto de una mujer sonriendo.

🎨 ¿Qué hicieron exactamente?

  1. El "Pincel Invisible": Crearon un algoritmo que pinta la imagen con cambios tan pequeños que el ojo humano no los ve (como cambiar un píxel de un color a otro casi idéntico).
  2. El Objetivo: No querían que el robot fallara en una tarea específica (como decir que un perro es un gato). Querían que el robot cometiera errores matemáticos en su interior.
  3. El Efecto: Cuando le mostraron estas imágenes "envenenadas" a robots famosos (como LLaVA o Idefics), los robots fallaron estrepitosamente.
    • Ejemplo real del paper: Le mostraron una foto de una bolsa de basura en un baño. El robot normal dijo "bolsa de basura". El robot con la imagen "envenenada" dijo: "Un perro sentado en una habitación con paredes cubiertas de logotipos de McDonald's". ¡Totalmente alucinado!

🚫 ¿Por qué es peligroso esto?

Es peligroso porque es invisible.

  • Si alguien te envía una foto con un virus, tu antivirus lo detecta.
  • Si alguien te envía una foto con "ruido" (estática), te das cuenta de que algo va mal.
  • Pero con este ataque: La foto se ve perfecta. El usuario piensa: "Mira qué buena foto". Pero el robot que la analiza empieza a dar respuestas erróneas, confusas o peligrosas.

Es como si alguien cambiara el aceite de un coche por un líquido que parece aceite pero tiene un ingrediente secreto que hace que el motor se caliente lentamente hasta fundirse, sin que el conductor note nada hasta que es demasiado tarde.

💡 La Conclusión

Los autores nos dicen: "Ojo, la inteligencia artificial no solo falla por ser tonta o por tener datos malos. Falla porque sus matemáticas internas son frágiles".

Hemos estado optimizando a estos robots para que sean rápidos y ahorren memoria (usando números más simples), pero sin darnos cuenta, hemos creado una puerta trasera. Si alguien sabe cómo empujar esa puerta (creando la imagen perfecta), el robot se desmorona.

En resumen: No es un ataque visual, es un ataque matemático. Es como si le susurraras un código secreto al cerebro del robot para que olvide cómo sumar, y por eso empieza a decir tonterías sobre gatos y McDonald's.

🔮 ¿Qué sigue?

El paper sugiere que necesitamos construir robots más robustos, no solo con mejores ojos (cámaras), sino con cerebros matemáticos más estables que no se rompan con un susurro. Es un llamado de atención para que los ingenieros revisen cómo construyen estos sistemas antes de que se usen en cosas críticas, como hospitales o coches autónomos.