Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec
O artigo apresenta o JHCodec, um codec neural de áudio que utiliza uma perda de reconstrução de representação auto-supervisionada (SSRR) para alcançar estado da arte em inteligibilidade e baixa latência, permitindo uma arquitetura de streaming sem atraso (zero-lookahead) e treinamento eficiente em uma única GPU.