Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy
Este trabalho demonstra que os benchmarks atuais de compreensão de vídeo negligenciam a importância da audição ao serem resolvidos majoritariamente por pistas visuais, mas confirma que a integração de codificadores de fala em modelos de linguagem multimodais traz ganhos significativos em tarefas que exigem compreensão de áudio e alinhamento cruzado, propondo uma arquitetura escalável e de código aberto para remediar essa lacuna.