Quantized Visual Geometry Grounded Transformer

El artículo presenta QuantVGGT, el primer marco de cuantización post-entrenamiento diseñado específicamente para los Transformers de Geometría Visual (VGGT) a gran escala, que supera los desafíos de las distribuciones de activación de cola pesada y la inestabilidad en la selección de muestras mediante técnicas innovadoras como la cuantización de grano fino suavizada dual y el muestreo diverso filtrado por ruido, logrando una reducción de memoria de 3.7 veces y una aceleración de 2.5 veces en hardware real manteniendo una precisión de reconstrucción superior al 98%.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que has creado un genio digital llamado VGGT. Este genio es increíblemente inteligente: puede mirar una serie de fotos y reconstruir el mundo en 3D, calculando dónde está la cámara, la profundidad de los objetos y cómo se mueven las cosas, todo en un instante.

El problema es que este genio es gigante. Es tan grande y pesado que necesita una computadora de laboratorio superpoderosa para funcionar. Si intentas llevarlo a tu teléfono o a un dron, se queda sin batería en segundos y se vuelve tan lento que es inútil.

Los investigadores de este paper (publicado en ICLR 2026) se preguntaron: "¿Cómo podemos hacer que este genio sea pequeño y rápido sin que pierda su inteligencia?".

La respuesta es QuantVGGT. Aquí te explico cómo funciona usando analogías sencillas:

1. El Problema: El "Genio" que grita demasiado

Para hacer al genio más pequeño, los científicos intentaron usar una técnica llamada cuantización. Imagina que el genio habla en un idioma muy complejo y preciso (números de 16 dígitos). La cuantización intenta enseñarle a hablar en un idioma más simple (números de 4 dígitos).

Pero, al intentar simplificarlo, surgieron dos problemas graves:

  • Los "Gritos" (Tokens Especiales): El genio tiene unas palabras especiales (llamadas tokens) que no vienen de las fotos, sino que están pre-cargadas en su cerebro. Estas palabras son extremadamente fuertes y ruidosas. Cuando intentas simplificar el lenguaje, estos "gritos" rompen todo el sistema, como si alguien gritara "¡SOS!" en medio de una conversación tranquila; el mensaje se distorsiona y el genio empieza a alucinar.
  • El "Muestrario Raro" (Calibración): Para enseñarle al genio a hablar simple, necesitas darle ejemplos de práctica. Pero como el genio ve muchas vistas diferentes de un mismo objeto (como un cubo visto desde arriba, abajo y de lado), es muy difícil elegir los ejemplos correctos. Si le das ejemplos raros o extraños, el genio se confunde y aprende mal.

2. La Solución: QuantVGGT (El Entrenador Personal)

Los autores crearon un nuevo entrenador llamado QuantVGGT que arregla estos problemas con dos trucos de magia:

Truco A: "El Baile de la Suavidad" (Dual-Smoothed Fine-Grained Quantization)

Imagina que los números del genio son una multitud de personas en una plaza. La mayoría son tranquilos, pero hay unos pocos "gritos" (los tokens especiales) que son gigantes y asustan a todos.

  • El Giro (Rotación Hadamard): El entrenador hace que toda la multitud gire en un baile extraño. Al girar, los "gritos" gigantes se mezclan con la gente normal y dejan de ser tan aterradores. Ya no hay un solo gigante, sino muchos pequeños.
  • El Ajuste (Suavizado Local): Luego, el entrenador ajusta la altura de cada persona para que todos tengan un tamaño más uniforme. Ahora, la multitud es suave y ordenada, perfecta para ser "simplificada" (cuantizada) sin perder información importante.

Truco B: "El Filtro de Calidad" (Noise-Filtered Diverse Sampling)

Para entrenar al genio, necesitan elegir los mejores ejemplos de práctica.

  • El Filtro: Primero, el entrenador mira los ejemplos y tira a la basura los que son "ruidosos" o extraños (como fotos borrosas o ángulos imposibles).
  • El Grupo Diverso: Luego, en lugar de elegir ejemplos al azar, agrupa las fotos por "estilo" (por ejemplo, fotos de interiores, fotos de exteriores, fotos de día). Se asegura de elegir un ejemplo de cada grupo. Así, el genio aprende a ver el mundo desde todas las perspectivas posibles, no solo desde un ángulo raro.

3. El Resultado: ¡Un Genio Portátil!

Gracias a estos trucos, QuantVGGT logra lo que parecía imposible:

  • Compresión: Hace al genio 3.7 veces más pequeño (ahorra mucha memoria).
  • Velocidad: Lo hace 2.5 veces más rápido.
  • Calidad: Y lo más importante: sigue siendo un genio. Mantiene más del 98% de su inteligencia original.

En resumen:
Antes, para usar este modelo de reconstrucción 3D, necesitabas un superordenador. Con QuantVGGT, ahora puedes llevarlo en tu bolsillo, en un dron o en un robot, y seguirá viendo el mundo en 3D con una precisión asombrosa, como si nada hubiera pasado. Es como tomar un elefante gigante y convertirlo en un elefante de juguete que sigue siendo tan fuerte y listo como el original.