A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering
Die Autoren stellen ein leichtgewichtiges, zweistufiges Vision-Language-Framework vor, das auf einem Swin Transformer und T5-basierten Decodern aufbaut, um bei der visuellen Fragebeantwortung für Pflanzenkrankheiten sowohl hohe Genauigkeit als auch Erklärbarkeit zu erreichen.