A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering
Questo lavoro presenta un framework vision-language leggero e spiegabile basato su Swin Transformer e T5, che utilizza una strategia di addestramento in due fasi per ottenere prestazioni quasi perfette nell'identificazione e nella spiegazione delle malattie delle colture attraverso il Visual Question Answering.