SeaVIS: Sound-Enhanced Association for Online Audio-Visual Instance Segmentation
O artigo apresenta o SeaVIS, o primeiro framework online para segmentação de instâncias áudio-visuais que supera as limitações dos métodos atuais ao utilizar fusão causal de atenção cruzada e aprendizado contrastivo guiado por áudio para associar e rastrear instâncias sonoras em fluxos de vídeo contínuos, garantindo precisão mesmo quando os objetos estão silenciosos.