A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering
Dit artikel presenteert een lichtgewicht, twee-traps vision-language framework dat Swin Transformer en T5 combineert voor uitlegbare visuele vraag-antwoordtaken bij gewasziektes, waarbij hoge nauwkeurigheid en generalisatie worden bereikt op de CDDM- en PlantVillageVQA-datasets.