Partially Recentralization Softmax Loss for Vision-Language Models Robustness

Este artículo propone una función de pérdida de softmax parcialmente recentralizada para mejorar significativamente la robustez adversarial de los modelos de visión y lenguaje preentrenados mediante la restricción de las salidas superiores, demostrando su eficacia frente a ataques populares tras un ajuste fino.

Hao Wang, Jinzhe Jiang, Xin Zhang, Chen Li

Publicado 2026-03-13
📖 3 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un chef muy talentoso (el modelo de Inteligencia Artificial) que es experto en cocinar platos combinados: puede mezclar una foto de un paisaje con una receta escrita y crear algo delicioso. Este chef es famoso por entender el mundo visual y el lenguaje humano a la vez.

Sin embargo, hay un problema: este chef es un poco ingenuo. Si alguien le hace una "broma" muy sutil en la foto (como cambiar un solo píxel de color, algo que el ojo humano ni nota), el chef puede perder la cabeza y decirte que la foto es de un "desierto" en lugar de un "bosque", o cambiar completamente su receta. A esto los expertos lo llaman un "ataque adversario": una pequeña trampa que engaña a la máquina.

Los científicos de este artículo (el paper) se preguntaron: ¿Cómo podemos entrenar a este chef para que sea más resistente a las bromas y no se confunda tan fácilmente?

La Solución: El "Filtro de los Mejores 3"

En lugar de dejar que el chef elija cualquier respuesta posible, los autores proponen una regla nueva para su entrenamiento, llamada Pérdida de Softmax Parcialmente Recentralizada. Suena complicado, pero es como ponerle unas gafas de realidad aumentada al chef.

Aquí está la analogía sencilla:

  1. El problema actual: Imagina que le preguntas al chef: "¿Qué hay en esta foto?". Él tiene una lista de 1,000 posibilidades en su cabeza. Normalmente, elige la que cree más probable, pero si alguien le hace una trampa, puede saltar a una opción muy rara y equivocada (como decir que es un "gato" cuando es un "coche").
  2. La nueva regla: Los autores le dicen al chef: "Oye, no te preocupes por las 997 opciones raras. Solo concéntrate en las 3 mejores opciones que tienes en mente. Si la respuesta correcta está entre esas 3, estás bien. Si no, vuelve a estudiar".
  3. El resultado: Al obligar al chef a enfocarse solo en las opciones más lógicas y descartar las locuras, se vuelve mucho más difícil engañarlo. Incluso si le hacen una trampa, su "brújula interna" sigue apuntando a las respuestas sensatas.

¿Qué descubrieron?

Después de entrenar al chef con esta nueva regla, probaron a engañarlo con muchas trampas diferentes. ¡Funcionó! El chef se volvió mucho más robusto. Ya no se desmorona ante pequeños cambios en las imágenes.

En resumen:
Este papel nos dice que, para hacer que la Inteligencia Artificial que ve y lee sea más segura, no necesitamos inventar algo totalmente nuevo. Solo necesitamos enseñarle a ignorar las opciones absurdas y concentrarse en las mejores posibilidades, como un detective que solo sigue las pistas más sólidas y descarta las teorías locas.

Aunque el chef ahora es más fuerte, los autores dicen que todavía hay cosas por aprender, como cómo mantener la creatividad del chef sin hacerlo demasiado rígido, pero es un gran paso hacia una IA más confiable.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →