MAviS: A Multimodal Conversational Assistant For Avian Species
O artigo apresenta o MAviS, um assistente conversacional multimodal especializado em aves, composto pelo conjunto de dados MAviS-Dataset, pelo modelo MAviS-Chat e pelo benchmark MAviS-Bench, que juntos superam os modelos de base existentes ao oferecer compreensão detalhada e respostas precisas para mais de 1.000 espécies de aves, integrando áudio, visão e texto para aplicações em conservação da biodiversidade.