Rethinking Two-Stage Referring-by-Tracking in Referring Multi-Object Tracking: Make it Strong Again

Each language version is independently generated for its own context, not a direct translation.

Immagina di guardare un film d'azione pieno di auto, pedoni e oggetti in movimento. Se chiedi a un computer: "Insegui quell'auto rossa che sta girando a sinistra", il compito è difficile. Il computer deve prima trovare tutte le cose, poi seguirle nel tempo, e infine capire quale di quelle cose corrisponde alla tua descrizione in italiano.

Questo campo si chiama RMOT (Tracciamento Multi-Oggetto con Riferimento Linguistico).

Fino a poco tempo fa, c'erano due modi principali per insegnare questo compito al computer:

Il metodo "Tutto in uno" (One-Stage): Come un cuoco che prepara l'intero pasto dall'inizio alla fine in un'unica pentola. È potente, ma richiede una cucina enorme (molta potenza di calcolo) e se vuoi cambiare un ingrediente (aggiungere un nuovo tipo di oggetto), devi ricominciare tutto da capo.
Il metodo "A due stadi" (Two-Stage): Come un'assemblea di montaggio. Prima un gruppo trova e segue gli oggetti (come un cacciatore che segna le prede), e poi un secondo gruppo cerca di capire quale preda corrisponde alla tua descrizione. È più economico e flessibile, ma finora era considerato "debole" e impreciso.

Il paper "FlexHook" dice: "Ehi, il metodo a due stadi non è debole di natura, è solo stato costruito male! Possiamo renderlo forte di nuovo."

Ecco come funziona la loro soluzione, spiegata con analogie:

1. Il Problema: Come si guardava prima

I vecchi metodi a due stadi erano come un turista con una mappa sbagliata.

Costruzione delle caratteristiche (Feature Construction): Immagina di dover descrivere un'auto. Il vecchio metodo prendeva l'intera foto della città, poi tagliava un quadrato intorno all'auto, e poi cercava di unire i due pezzi con un nastro adesivo (un modulo di fusione). Era come se il computer dovesse "ricomprendere" la strada da zero ogni volta, ignorando che la mappa originale (il modello visivo) aveva già tutte le informazioni necessarie. Inoltre, non ascoltava bene la tua descrizione: se dicessi "l'auto a sinistra", il computer guardava tutto allo stesso modo, senza spostare l'attenzione dove serviva.
Modellazione della corrispondenza: Per capire se l'auto è quella giusta, il vecchio metodo usava un dizionario pre-stampato (chiamato CLIP). Era come cercare di abbinare la tua frase a un'immagine confrontando solo le parole chiave. Se la frase era complessa o l'immagine era strana, il dizionario falliva. Era un confronto passivo: "Sembra simile? Sì/No".

2. La Soluzione: FlexHook

Gli autori hanno creato FlexHook, che funziona come un assistente personale intelligente che si "aggancia" (hook) direttamente al flusso di lavoro del computer senza interromperlo.

A. Il "Gancio Condizionato" (C-Hook)

Invece di ricreare la mappa da zero, FlexHook usa un trucco da mago:

Campionamento Intelligente: Invece di guardare tutto il quadro, il computer "tira fuori" direttamente i pixel giusti dalla mappa originale, proprio come se prendesse un campione di sangue direttamente dal flusso sanguigno senza ferire il paziente. Questo mantiene le informazioni originali intatte.
Aggiunta di "Condizioni": Qui sta la magia. Se dici "l'uomo in rosso", FlexHook non guarda solo l'uomo. Crea dei punti di riferimento invisibili guidati dalla tua frase. È come se il computer avesse degli occhi che si spostano automaticamente verso la parte rossa dell'immagine solo perché gliel'hai detto. Capisce che "rosso" è importante e "sinistra" è importante, adattandosi alla tua richiesta specifica.

B. Il "Decodificatore di Corrispondenza" (PCD)

Invece di usare quel vecchio dizionario pre-stampato (CLIP) che spesso sbaglia, FlexHook ha un detective attivo.

Il detective non si limita a dire "Sembra simile". Prende la tua frase e l'immagine, le mette una di fronte all'altra e le analizza attivamente per trovare le differenze e le somiglianze specifiche.
È come se invece di confrontare due foto con un righello, un detective le esaminasse insieme per capire: "Sì, questa è l'auto che girava a sinistra, perché vedo le ruote girate in quel modo". Questo rende il sistema molto più robusto e meno dipendente da regole rigide.

3. Perché è un grande passo avanti?

Efficienza: È come passare da un camioncino lento a una moto veloce. Non serve ricominciare tutto da capo per aggiungere nuove capacità. Puoi usare un tracciatore già esistente e "agganciarci" FlexHook sopra.
Potenza: I test mostrano che FlexHook, pur essendo un metodo a due stadi (che prima era considerato inferiore), batte i migliori metodi "tutto in uno" attuali.
Flessibilità: Funziona bene anche se cambi le parole o se la scena è caotica.

In sintesi

Immagina che il vecchio metodo a due stadi fosse un robot che leggeva un manuale di istruzioni rigido per trovare un oggetto. Se l'oggetto non corrispondeva perfettamente al manuale, il robot si bloccava.

FlexHook è come dare a quel robot un cervello umano e un'attenzione dinamica. Gli permette di guardare direttamente ciò che c'è nel video, ascoltare la tua descrizione specifica, spostare il suo sguardo dove serve e decidere attivamente se quell'oggetto è quello che cerchi.

Il risultato? Un sistema che è più veloce, più intelligente e che rende il metodo "a due stadi" forte di nuovo, superando persino i sistemi più complessi e costosi.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Il Referring Multi-Object Tracking (RMOT) mira a tracciare multipli oggetti specifici in un video basandosi su espressioni linguistiche naturali (es. "l'auto che gira a sinistra"). Sebbene i metodi one-stage (che ottimizzano rilevamento, tracciamento e riferimento in modo congiunto) abbiano fatto grandi progressi, il paradigma Two-Stage Referring-by-Tracking (RBT) rimane prezioso grazie al suo basso costo di addestramento e alla flessibilità nel deployment incrementale (può essere applicato a tracker esistenti senza ri-addestramento completo).

Tuttavia, i framework RBT a due stadi attuali (come iKUN) hanno prestazioni significativamente inferiori rispetto alle controparti one-stage. Gli autori identificano due limitazioni fondamentali:

Costruzione delle caratteristiche (Feature Construction) eccessivamente euristica: I metodi esistenti ricostruiscono le caratteristiche degli oggetti duplicando inutilmente il calcolo del backbone visivo (codificando sia l'immagine intera che le patch ritagliate) e ignorando il flusso del gradiente spaziale continuo fornito dai backbone moderni. Inoltre, modellano le caratteristiche in modo "agnostico" rispetto al linguaggio, non adattando l'attenzione alle diverse esigenze semantiche delle espressioni.
Modellazione della corrispondenza fragile: La corrispondenza tra oggetto ed espressione viene stabilita calcolando la similarità coseno tra embedding visivi e testuali pre-addestrati su CLIP. Questo approccio è rigido, dipende fortemente dallo spazio di allineamento di CLIP e fallisce quando si introducono moduli aggiuntivi o si cambiano i backbone, limitando la scalabilità e la generalizzazione.

2. Metodologia: FlexHook

Gli autori propongono FlexHook, un nuovo framework RBT a due stadi che agisce come una "funzione hook" nel flusso di elaborazione, ridefinendo la costruzione delle caratteristiche e la decodifica della corrispondenza senza interrompere il flusso originale del backbone.

FlexHook si compone di tre moduli principali:

A. Conditioning Hook (C-Hook)

Sostituisce la costruzione euristica delle caratteristiche con una strategia basata sul campionamento:

Neighboring Grid Sampling: Invece di ricodificare le patch, il C-Hook campiona direttamente le caratteristiche dal flusso grezzo del backbone visivo multi-scala. Per colmare il divario tra le traiettorie di ground truth (usate in addestramento) e i candidati del tracker (usati in inferenza), introduce un campionamento stocastico controllato:
- Simula la perdita dell'oggetto (segmenti frammentati).
- Aggiunge rumore gaussiano per modellare imprecisioni di localizzazione.
- Ricombina le sequenze di griglia per simulare lo scambio di identità (identity switches).
Conditioning Enhancement: Per superare l'agnosticismo linguistico, il modulo apprende punti di riferimento condizionati dal linguaggio. Utilizza un decoder Transformer e un MLP per generare punti 2D ( $P_r$ ) basati sulle caratteristiche linguistiche. Questi punti vengono campionati insieme alla griglia spaziale, permettendo al modello di estrarre cue visivi adattivi in base all'espressione (es. focalizzarsi sulla posizione o sul colore).

B. Temporal Integration

Per gestire espressioni che implicano movimento (es. "auto che girano"), il framework non usa un semplice pooling temporale. Calcola esplicitamente il flusso ottico target calcolando la differenza tra le coordinate delle griglie campionate nei frame consecutivi. Le caratteristiche visive e gli spostamenti della griglia vengono concatenati e compressi tramite un MLP per ottenere caratteristiche di traiettoria ricche di informazioni temporali.

C. Pairwise Correspondence Decoder (PCD)

Sostituisce la metrica statica di similarità coseno basata su CLIP con un modello di discriminazione attiva:

Il PCD prende in input le caratteristiche della traiettoria, le caratteristiche di riferimento condizionate e le caratteristiche linguistiche.
Utilizza un meccanismo di masked cross-attention dove ogni query (rappresentante una coppia espressione-oggetto) accede solo alle sue caratteristiche linguistiche e di riferimento, ma condivide le caratteristiche della traiettoria.
Questo permette al modello di apprendere attivamente le differenze tra coppie positive e negative (contrastive learning) a livello di coppia, eliminando la dipendenza dallo spazio di allineamento pre-addestrato di CLIP.

3. Contributi Chiave

Ridefinizione della Feature Construction: Il C-Hook ripristina il flusso del gradiente contestuale originale del backbone visivo attraverso un campionamento diretto, evitando la ridondanza computazionale.
Cue Linguistici Condizionati: L'introduzione di punti di riferimento appresi condizionati dal linguaggio permette una disentanglement adattivo di espressioni complesse.
PCD (Pairwise Correspondence Decoder): Sostituisce la similarità coseno passiva con una discriminazione attiva apprendibile, rendendo il framework indipendente da CLIP e più robusto.
Prestazioni di Stato dell'Arte: FlexHook è il primo approccio a due stadi a superare in modo significativo i metodi one-stage attuali, dimostrando che il paradigma a due stadi può essere "forte di nuovo".

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su quattro benchmark principali: Refer-KITTI, Refer-KITTI-V2, Refer-Dance e LaMOT.

Refer-KITTI-V2: FlexHook ha ottenuto un punteggio HOTA di 42.53 (con backbone ROPE Swin-T), superando nettamente il precedente metodo a due stadi iKUN (10.32 HOTA) e battendo anche i migliori metodi one-stage come DKGTracker (35.26 HOTA) e HFF-Tracker (36.18 HOTA).
Refer-Dance e LaMOT: Il modello ha dimostrato robustezza anche in scenari non legati alla guida autonoma, superando lo stato dell'arte su entrambi i dataset (es. 56.77 HOTA su LaMOT).
Efficienza: FlexHook è significativamente più veloce in termini di tempo totale di addestramento e inferenza rispetto ai metodi one-stage e ai precedenti metodi a due stadi, grazie all'assenza di ridondanza di codifica e all'elaborazione parallela del PCD.
Robustezza al Tracker: Il metodo mantiene alte prestazioni anche quando accoppiato con tracker più deboli o diversi, confermando la sua flessibilità per il deployment incrementale.

5. Significato e Impatto

Questo lavoro ribalta la percezione secondo cui i metodi a due stadi per il RMOT sono obsoleti o inferiori. Dimostra che, eliminando le limitazioni architetturali (duplicazione delle feature e dipendenza da CLIP), un approccio modulare può raggiungere e superare le prestazioni dei metodi end-to-end complessi.
La proposta di FlexHook offre un vantaggio cruciale per le applicazioni reali: permette di integrare capacità di riferimento linguistico avanzate in sistemi di tracciamento già esistenti senza richiedere un ri-addestramento massiccio o costoso, rendendo la tecnologia RMOT più accessibile e scalabile.