LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio
Le papier présente LongAudio-RAG, un cadre hybride qui répond aux questions sur des enregistrements audio de plusieurs heures en ancrant les réponses d'un grand modèle de langage dans des événements acoustiques structurés et horodatés, permettant ainsi une extraction efficace en périphérie et un raisonnement de haute qualité dans le cloud.