TraceVision: Trajectory-Aware Vision-Language Model for Human-Like Spatial Understanding
Il paper propone TraceVision, un modello visione-linguaggio unificato che integra la comprensione spaziale consapevole delle traiettorie per simulare l'attenzione visiva umana, ottenendo prestazioni all'avanguardia in compiti di generazione di didascalie, localizzazione e segmentazione grazie a un nuovo modulo di percezione visiva, una pipeline di addestramento in tre fasi e il dataset RILN.