InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression

El artículo presenta InfoTok, un marco de tokenización de video adaptativo basado en la teoría de la información que optimiza la compresión asignando tokens según la riqueza informativa, logrando un rendimiento superior al estado del arte con una reducción del 20% en tokens y una tasa de compresión de 2.3x.

Haotian Ye, Qiyuan He, Jiaqi Han, Puheng Li, Jiaojiao Fan, Zekun Hao, Fitsum Reda, Yogesh Balaji, Huayu Chen, Sheng Liu, Angela Yao, James Zou, Stefano Ermon, Haoxiang Wang, Ming-Yu Liu

Publicado 2026-03-24
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que quieres enviar un video por correo electrónico a un amigo. Si el video es de un paisaje estático donde solo se mueven las nubes lentamente, no necesitas enviar cada fotograma con todos sus detalles; podrías enviar una descripción breve y tu amigo entendería lo que pasa. Pero si el video es de una pelea de boxeo con golpes rápidos y movimientos caóticos, necesitas enviar mucha más información para que se entienda la acción.

El problema es que la mayoría de los sistemas actuales de compresión de video son como un cartero muy estricto: envían la misma cantidad de "paquetes" (datos) para todos los videos, sin importar si son aburridos o emocionantes. Esto hace que los videos simples se llenen de basura innecesaria y los videos complejos se queden cortos de información.

Aquí es donde entra INFOTOK, el nuevo método presentado en este paper.

¿Qué es INFOTOK?

INFOTOK es como un cartero inteligente que sabe exactamente cuánto "paquete" necesita cada video. En lugar de usar una regla fija, INFOTOK analiza el video en tiempo real y decide cuánta información es realmente necesaria.

La Analogía de la "Caja de Herramientas"

Imagina que tienes una caja de herramientas para reparar cosas:

  1. Método Antiguo (Tokenización Fija): Siempre usas 100 herramientas, incluso si solo tienes que apretar un tornillo. Si tienes que construir un rascacielos, 100 herramientas no son suficientes. Es ineficiente.
  2. Método INFOTOK: Mira la tarea primero.
    • Si es solo un tornillo (un video de un perro durmiendo), usa 20 herramientas.
    • Si es un rascacielos (un video de una pelea de gatos), usa 80 herramientas.
    • Resultado: Ahorra espacio y tiempo sin perder calidad.

¿Cómo funciona mágicamente? (La teoría simplificada)

Los autores se inspiraron en una idea muy antigua de la física y las matemáticas llamada Teoría de la Información (creada por un genio llamado Claude Shannon). La idea central es: "La información valiosa es la que es difícil de predecir".

  • Videos aburridos: Son fáciles de predecir (el perro seguirá durmiendo). Por lo tanto, tienen poca información nueva. INFOTOK les asigna pocos "tokens" (unidades de datos).
  • Videos caóticos: Son difíciles de predecir (¿dónde golpeará el boxeador a continuación?). Tienen mucha información nueva. INFOTOK les asigna muchos "tokens".

Para lograr esto, INFOTOK usa dos partes principales:

  1. El "Router" (El Jefe): Es como un gerente que mira el video y dice: "Este trozo es aburrido, envíen solo 30% de los datos. Este trozo es loco, envíen el 70%". Lo hace calculando qué tan "sorprendente" es el contenido.
  2. El "Compresor Adaptativo" (El Operario): Es el que realmente toma los datos y decide cuáles guardar y cuáles tirar. No tira los datos al azar; guarda los más importantes (los que tienen más "sorpresa" o información) y descarta los redundantes.

¿Por qué es un gran avance?

En los experimentos, INFOTOK demostró ser increíblemente eficiente:

  • Ahorro masivo: Logró reducir la cantidad de datos necesarios en un 20% a 50% sin que la calidad del video bajara.
  • Velocidad: A diferencia de otros métodos que tienen que "adivinar" cuántos datos usar (probando y fallando varias veces), INFOTOK lo calcula de una sola vez. Es como tener un GPS que te da la ruta perfecta de inmediato, en lugar de conducir por la ciudad hasta que encuentres el camino.
  • Calidad: Incluso comprimiendo mucho más que los métodos anteriores, la imagen reconstruida se ve igual de bien o mejor.

En resumen

INFOTOK es como tener un sistema de envío de videos que deja de tratar a todos los videos por igual. Entiende que un video de un paisaje no necesita tanto espacio como un video de un concierto de rock. Al adaptar la cantidad de datos a la "complejidad" de la escena, logra guardar más videos en menos espacio, haciendo que el futuro de la inteligencia artificial y el streaming sea más rápido y eficiente.

Es, en esencia, la diferencia entre enviar una carta llena de papel arrugado y enviar un mensaje de texto perfecto y conciso.

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →