LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio
Dit paper introduceert LongAudio-RAG, een hybride raamwerk dat vraag-antwoordsystemen voor lange audio-opnames verbetert door Large Language Models te koppelen aan gestructureerde, tijdstempelgebonden geluidsgebeurtenissen in plaats van ruwe audio, wat resulteert in nauwkeurigere antwoorden met minder hallucinaties.