LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio
O artigo apresenta o LongAudio-RAG, um framework híbrido que responde a perguntas sobre áudios de longa duração ao converter gravações em registros de eventos estruturados para recuperação precisa e geração de respostas por modelos de linguagem, demonstrando sua eficácia e viabilidade em uma arquitetura de borda-nuvem.