EdgeDAM: Real-time Object Tracking for Mobile Devices

El artículo presenta EdgeDAM, un marco de seguimiento de objetos ligero y en tiempo real para dispositivos móviles que mejora la robustez ante oclusiones y distractores mediante una memoria de distractor consciente de doble búfer y un mecanismo de estabilización de caja retenida, logrando un alto rendimiento en benchmarks como DiDi y en hardware como el iPhone 15.

Syed Muhammad Raza, Syed Murtaza Hussain Abidi, Khawar Islam, Muhammad Ibrahim, Ajmal Saeed Mian

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un perro guardián muy inteligente, pero en lugar de vivir en una casa grande con mucho espacio, vive dentro de tu móvil (como un iPhone 15). Su trabajo es seguir a una persona o un objeto en un video, sin perderlo de vista, incluso si se esconde detrás de un árbol, si hay mucha gente alrededor o si se mueve muy rápido.

Este perro se llama EdgeDAM. Aquí te explico cómo funciona, usando analogías sencillas:

1. El Problema: ¿Por qué es tan difícil?

Imagina que estás en una fiesta muy concurrida (un video con muchos objetos).

  • Los "Gigantes" (Los trackers actuales de alta gama): Son como guardias de seguridad gigantes que usan gafas de visión nocturna y cámaras de alta definición. Pueden ver todo perfectamente y no se confunden, pero pesan tanto que no caben en tu móvil y agotan la batería en 5 minutos. Además, son tan lentos que el video se ve a cámara lenta.
  • Los "Pequeños" (Los trackers ligeros): Son como un niño pequeño que corre muy rápido. Pueden seguir al objetivo sin problemas cuando todo está tranquilo, pero si alguien se pone delante (ocultando al objetivo) o hay alguien que se parece mucho (un "distractor"), el niño se confunde, se pierde y deja de seguir a la persona correcta.

EdgeDAM es la solución perfecta: es un perro guardián pequeño y rápido (cabe en tu móvil y va a toda velocidad), pero tiene una memoria increíble que le permite no perderse nunca.

2. La Magia: ¿Cómo funciona EdgeDAM?

EdgeDAM tiene dos trucos principales en su mochila:

A. La "Mochila de la Memoria" (DAM)

En lugar de intentar recordar cada detalle del video (como un fotograma completo, lo cual es pesado), EdgeDAM lleva una mochila ligera con dos compartimentos:

  1. El Compartimento "Reciente" (RAM): Aquí guarda los últimos momentos donde estaba seguro de quién era el objetivo. Es como si dijera: "¡Ese es el tipo! Acabo de verlo hace un segundo, tiene esa chaqueta y esa forma". Si el objetivo se esconde un momento, usa esta memoria para mantener la pista.
  2. El Compartimento "Enemigos" (DRM): Aquí guarda una lista de "sospechosos" o personas que se parecen al objetivo pero no son él. Es como tener una lista de "No tocar": "Ese otro tipo con la misma chaqueta es un impostor, no le sigas". Cuando el objetivo reaparece, EdgeDAM consulta esta lista para evitar confundirse con los impostores.

La analogía: Imagina que buscas a tu amigo en una multitud.

  • Un tracker normal se queda mirando al último lugar donde lo vio.
  • EdgeDAM tiene una foto mental de tu amigo (Reciente) y una lista mental de los gemelos malvados que se parecen a él (Enemigos). Si ve a alguien parecido, consulta la lista: "¿Es el gemelo? ¡No, es el amigo!".

B. El "Truco del Hielo" (Held-Box Stabilization)

¿Qué pasa si tu amigo se esconde detrás de un camión y no sale en 3 segundos?

  • La mayoría de los sistemas se rinden o se vuelven locos buscando.
  • EdgeDAM hace algo inteligente: congela la estimación. Imagina que pone una caja invisible alrededor del último lugar donde vio a su amigo y la hace un poco más grande. Mientras tanto, no intenta adivinar nada nuevo; simplemente espera con paciencia, como si dijera: "Estoy seguro de que está ahí, voy a esperar a que salga".
  • Cuando el objetivo reaparece, EdgeDAM usa su "Mochila de la Memoria" para identificarlo rápidamente y volver a seguirlo con precisión.

3. ¿Por qué es tan especial?

  • Rápido como el rayo: Funciona a 25 cuadros por segundo en un iPhone 15. ¡Es como ver un video en tiempo real sin que se trabe!
  • Inteligente sin ser pesado: No necesita cámaras de cine ni superordenadores. Usa trucos geométricos simples (como comparar formas y colores básicos) en lugar de análisis complejos.
  • El Campeón: En las pruebas, EdgeDAM ganó a los "gigantes" lentos y a los "pequeños" confusos. En el reto de los "distractores" (el dataset DiDi), logró un 88.2% de precisión, algo que nadie había logrado antes en un móvil.

En resumen

EdgeDAM es como un detective privado que cabe en tu bolsillo.

  1. Es rápido (corre como el viento).
  2. Tiene una memoria de elefante para no olvidar quién es el objetivo.
  3. Tiene una lista de sospechosos para no confundirse con los gemelos malvados.
  4. Cuando el objetivo se esconde, no entra en pánico, espera con una "caja de seguridad" hasta que reaparezca.

Gracias a EdgeDAM, ahora podemos tener cámaras de seguridad, drones o aplicaciones de realidad aumentada en nuestros móviles que no se pierden, no se agotan y funcionan perfectamente en el mundo real.