LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio
Il paper presenta LongAudio-RAG, un framework ibrido che risolve il problema della risposta a domande su audio di lunga durata convertendo i flussi audio in eventi acustici strutturati e recuperabili tramite SQL, permettendo così a un LLM di generare risposte precise con grounding temporale e ridotte allucinazioni, anche in un'architettura edge-cloud.