Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

El artículo presenta E-AdaPrune, un marco de poda adaptativa impulsado por la energía que optimiza la eficiencia de los modelos de visión y lenguaje al asignar dinámicamente la cantidad de tokens visuales según la densidad de información de cada imagen, logrando mejoras en el rendimiento sin añadir parámetros entrenables.

Jialuo He, Huangxun Chen

Publicado 2026-03-09
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un chef de cocina muy talentoso (el modelo de Inteligencia Artificial) que debe preparar un plato complejo basándose en una foto de un ingrediente.

El problema es que, a veces, la foto es un desastre visual: tiene miles de detalles, textos, sombras y objetos de fondo que no importan. Otras veces, la foto es muy simple: solo hay una manzana roja sobre una mesa blanca.

Hasta ahora, los chefs de IA tenían una regla estricta: "Sin importar qué foto me des, solo voy a mirar los primeros 100 detalles y ignoraré el resto".

  • El problema: Si la foto es de una manzana simple, el chef pierde tiempo mirando 100 detalles cuando solo necesitaba 10. Si la foto es de un mercado lleno de gente y carteles, el chef se queda corto, ignorando detalles cruciales porque se le acabó el "presupuesto" de miradas.

Aquí es donde entra E-AdaPrune, la nueva técnica que proponen los autores.

La Analogía: El "Presupuesto de Energía"

En lugar de dar al chef una regla fija, E-AdaPrune le da un sensor de energía.

  1. Analizar la "densidad" de la foto:
    Imagina que cada foto tiene una "firma musical".

    • Una foto simple (como la manzana) tiene una canción con muy pocas notas fuertes y el resto es silencio. La "energía" está concentrada en pocas notas.
    • Una foto compleja (como el mercado) tiene una sinfonía completa con muchas notas importantes repartidas por todas partes. La energía está dispersa.
  2. La decisión inteligente:
    E-AdaPrune escucha esta "canción" (usando una técnica matemática llamada Descomposición en Valores Singulares, que suena complicado, pero es como un ecualizador de audio) y pregunta: "¿Cuántas notas necesito escuchar para entender la canción al 99%?"

    • Si es la canción simple (manzana): "¡Ah! Solo necesito las 10 primeras notas. ¡Guardemos el resto!" (Ahorra mucha energía).
    • Si es la canción compleja (mercado): "¡Wow! Necesito escuchar las 250 notas para no perderme el mensaje." (Invierte más energía donde es necesario).

¿Por qué es genial esto?

  • No necesita entrenamiento extra: Imagina que le pones este sensor a un chef que ya es experto. No tienes que volver a entrenarlo ni darle un manual nuevo. Solo le pones el sensor y listo. Funciona con cualquier modelo de IA existente.
  • Ahorro real: En las fotos simples, el modelo es mucho más rápido porque no pierde tiempo mirando basura. En las fotos complejas, el modelo es más inteligente porque no se corta a sí mismo antes de tiempo.
  • Es rápido: Antes, hacer este análisis matemático era lento (como calcular la receta a mano). Los autores usaron un "truco" (llamado rSVD) que es como usar una calculadora rápida en lugar de hacer la operación a mano. Ahora, este análisis tarda solo 8 milisegundos por imagen (menos de un parpadeo).

El Resultado en la Vida Real

En sus pruebas, probaron esto con modelos que entienden imágenes y texto (como LLaVA).

  • En tareas difíciles: Cuando tenían que leer un cartel pequeño en una foto llena de gente, el método antiguo fallaba porque "cortaba" la foto demasiado pronto. E-AdaPrune vio que había mucha información y guardó más detalles, mejorando la respuesta en un 5.1% en tareas de razonamiento complejo.
  • En general: En promedio, mejoraron la precisión un 0.6% sin hacer el sistema más lento en general.

En resumen

E-AdaPrune es como darle a una IA una gafas inteligentes que le dicen: "Oye, esta foto es aburrida, mira rápido. Pero esta otra es un laberinto, ¡tómate tu tiempo y mira todo!".

Deja de tratar a todas las imágenes por igual y adapta su esfuerzo a la realidad de lo que está viendo, haciéndola más rápida, más eficiente y, paradójicamente, más inteligente.