Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

この論文は、拡散モデルと音楽基盤モデルの機能を組み合わせて自動ドラム転写の性能を飛躍的に向上させ、新たな最先端記録を達成した「Noise-to-Notes」という生成フレームワークを提案しています。

Michael Yeung, Keisuke Toyama, Toya Teramoto, Shusuke Takahashi, Tamaki Kojima

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「ノイズから楽譜を作る(Noise-to-Notes)」**という、ドラム演奏の自動書き起こし(トランスクリプション)に関する新しい研究について書かれています。

従来の方法が「音を見て、正解を推測する(判別)」ことだったのに対し、この研究は**「音というヒントを使って、ノイズから楽譜をゼロから描き出す(生成)」**という全く新しいアプローチを採用しました。

まるで**「霧の中から絵を描く」**ようなイメージで、この技術をわかりやすく解説します。


1. 従来の方法 vs 新しい方法:「探偵」から「画家」へ

  • 従来の方法(探偵):
    これまでのドラム書き起こし AI は、まるで**「探偵」のようでした。録音されたドラムの音を聴き、「これはバスドラムだ」「これはスネアだ」と、既存の知識やパターンを照らし合わせて正解を推測**していました。

    • 弱点: 録音環境やドラムの種類が変わると、探偵は「あれ?この音は知らないな」と迷ってしまい、間違えやすくなります。
  • 新しい方法 N2N(画家):
    この論文の「N2N(ノイズ・ツー・ノート)」は、**「画家」のような存在です。
    最初は画面全体が
    「白い霧(ノイズ)」で覆われています。そこに「ドラムの音」という「ヒント(条件)」を与えると、画家は霧を少しずつ晴らしていき、最終的に「ドラムの楽譜(音符と強さ)」**を浮かび上がらせて描き出します。

    • メリット: 霧を晴らす過程で、部分的に音が欠けていても(霧が濃くても)、文脈から「ここにはきっとスネアがあるはずだ」と**推測して埋め直す(インペインティング)**ことができます。

2. 2 つの大きな工夫

この「画家」をより上手にするために、2 つの重要な工夫がなされています。

① 「 annealed Pseudo-Huber loss(焼きなまし擬似ハーバー損失)」という魔法の筆

ドラムの楽譜には、**「音が鳴ったか(オンセット)」「どれくらい強く鳴ったか(ビロシティ)」**の 2 つの情報が必要です。

  • 問題: 従来のやり方だと、「音が鳴ったか」の間違いが全体の評価を支配してしまい、「強さ」の予測がおろそかになっていました。
  • 解決: 著者たちは、**「焼きなまし(Annealed)」**という冶金(きんぞく)の技術に似た考え方を導入しました。
    • 最初は「強さ」を厳しく評価する筆使いで、徐々に「鳴ったか」の精度も高めていくように調整します。
    • これにより、「リズムのタイミング」と「強弱のニュアンス」の両方を同時に、バランスよく完璧に描き出すことができるようになりました。

② 「音楽の基礎モデル(MFM)」という辞書

ドラムの音は、単なる波形(スペクトログラム)だけでは捉えきれない「文脈」があります。

  • 工夫: 従来の「音の波形」だけでなく、**「音楽の基礎モデル(MFM)」**という、大量の音楽を学習して「音楽の文法」や「感情」を理解している AI の知識を借用しました。
  • 効果: これにより、**「見知らぬドラムの音(ドメイン外)」に対しても、その音が「バスドラムに違いない」という「高次元の理解」**に基づいて正しく書き起こせるようになり、非常に頑丈(ロバスト)になりました。
    • 例え話: 波形だけ見ると「猫の鳴き声」と「ドラムの音」が似ている場合でも、MFM を使うと「これは猫ではなく、リズム楽器の一種だ」と文脈から判断できるようなものです。

3. 何がすごいのか?(成果)

  • 最高精度: 複数のテストで、これまでの最高記録(SOTA)を塗り替えました。
  • 柔軟なスピードと精度:
    • 急ぎなら「1 回で描く(1 ステップ)」こともできます。
    • 時間をかければ「10 回かけて丁寧に描く(10 ステップ)」ことで、さらに精度が上がります。
    • これまでの「判別型」AI は一度で決めるしかありませんでしたが、N2N は**「一度描いて、後から修正する」**という人間らしいプロセスを持っています。
  • 欠けた音を補う: 録音の途中がノイズで消えていても、前後の文脈から「ここにはスネアが入っているはずだ」と自動で補完して書き起こすことができます。

まとめ

この論文は、ドラム書き起こしを**「正解を探す作業」から「ノイズから美しい楽譜を描き出す創造的な作業」**へと変えました。

  • **霧(ノイズ)から絵(楽譜)**を描く画家のような AI。
  • 最初は荒い筆致でも、**「焼きなまし」**の技術で徐々に完璧に仕上げる。
  • 見知らぬ音でも、**「音楽の辞書(MFM)」**を使って文脈を理解する。

これにより、どんなドラムの録音でも、強弱を含めた高精度な楽譜を、柔軟に、そして頑丈に書き起こせるようになったのです。