LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio
El artículo presenta LongAudio-RAG, un marco híbrido que mejora la respuesta a preguntas sobre audios de larga duración al fundamentar las respuestas de los modelos de lenguaje en eventos acústicos recuperados de una base de datos SQL, permitiendo un despliegue eficiente en entornos edge-cloud con alta precisión y baja alucinación.