LLaDA-MedV: Exploring Large Language Diffusion Models for Biomedical Image Understanding
Este artigo apresenta o LLaDA-MedV, o primeiro modelo de difusão de linguagem grande adaptado para a compreensão de imagens biomédicas, que supera os modelos autoregressivos existentes em tarefas de conversação visual e perguntas e respostas, estabelecendo novos patamares de desempenho e oferecendo insights sobre estratégias de treinamento e inferência.