LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio
Das Paper stellt LongAudio-RAG vor, ein hybrides Framework, das durch die Umwandlung von stundenlangen Audioaufnahmen in strukturierte, zeitgestempelte Ereignisdaten und deren gezielte Abfrage mittels SQL die präzise Beantwortung natürlicher Sprachfragen mit minimierten Halluzinationen ermöglicht.