RadarVLM: A Vision-Language Model Approach for Radar Scene Understanding
Il paper presenta RadarVLM, un framework visione-linguaggio che utilizza un dataset simulato di oltre 800.000 coppie radar-testo e un obiettivo di apprendimento chiamato SG-CLIP per unificare la comprensione delle scene radar e migliorare significativamente l'accuratezza spaziale nella segmentazione e nella generazione di descrizioni.