A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering
Este trabalho apresenta um framework leve e explicável de duas etapas, baseado em Swin Transformer e decodificadores de linguagem, que alcança desempenho quase perfeito na identificação de culturas e doenças e na resposta a perguntas visuais, superando modelos maiores com menos parâmetros e oferecendo evidências interpretáveis.