Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound
Dit paper introduceert het eerste formele kader voor audio-visuele wereldmodellen, inclusief het AVW-4k dataset en het AV-CDiT-model, om agents in staat te stellen toekomstige multimodale toestanden te simuleren en zo hun prestaties bij navigatie significant te verbeteren.