A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering
Cet article présente un cadre vision-langage léger et explicable en deux étapes, basé sur un encodeur Swin Transformer et des décodeurs de type T5, qui atteint des performances quasi parfaites dans la classification des maladies des cultures et la réponse aux questions visuelles (VQA) tout en offrant une interprétabilité des prédictions.