A Text-Guided Vision Model for Enhanced Recognition of Small Instances
Die Studie stellt ein verbessertes, textgesteuertes YOLO-World-Modell vor, das durch den Austausch der C2f-Schicht gegen eine C3k2-Schicht und eine Parallelisierungs-Optimierung die Erkennung kleiner Objekte auf Drohnenbildern präziser macht und dabei gleichzeitig die Parameterzahl sowie die Rechenlast reduziert.