Speech Synthesis from Electrocorticography during Imagined Speech Using a Transformer-Based Decoder and a Pretrained Vocoder
この論文は、発話時の音声データを疑似正解として利用する学習フレームワークとトランスフォーマーに基づくデコーダ、事前学習されたボコーダを組み合わせることで、13 名の被験者における内言時の脳電図(ECoG)信号から高品質な音声合成を実現したことを報告しています。