TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control
本論文は、Wav2Vec2 活性化行列のグラム行列に基づくテクスチャ共活性化構造を捉えた「Texture Resonance Retrieval (TRR)」を提案し、ギターのエフェクトプリセット検索タスクにおいて、既存手法や基線モデルと比較して物理 DSP パラメータの誤差を最小化し、聴覚評価でも有効性を示したことを報告するものです。
157 件の論文
本論文は、Wav2Vec2 活性化行列のグラム行列に基づくテクスチャ共活性化構造を捉えた「Texture Resonance Retrieval (TRR)」を提案し、ギターのエフェクトプリセット検索タスクにおいて、既存手法や基線モデルと比較して物理 DSP パラメータの誤差を最小化し、聴覚評価でも有効性を示したことを報告するものです。
この論文は、エンジンの排気圧力パルスの物理的メカニズムにインダクティブバイアスを組み込んだ微分可能なパルス列合成モデル「PTR」を提案し、従来の調和音モデルと比較して高品質なエンジン音の再構成と物理パラメータの解釈可能性を実現したことを示しています。
本論文は、複数の音声入力に対する大規模音声言語モデルの理解能力を評価する包括的ベンチマーク「MUGEN」を提案し、入力数の増加に伴う性能低下という根本的な課題を明らかにするとともに、音声の順序を多様化するトレーニング不要の手法が精度向上に有効であることを示しています。
本論文は、従来の評価指標の限界を克服し、音声信号に基づいて感情音声キャプションの細部を原子単位で検証する新しい評価フレームワーク「EmoSURA」と、それを用いたベンチマーク「SURABench」を提案し、人間による評価との高い相関を示した研究です。
この論文は、アクセシビリティ技術や産業用ノイズ監視のニーズに基づき、音声認識を超えた背景音の理解や雑音の局所化など多様な音声理解能力を評価する新しいベンチマーク「SCENEBench」を提案し、最先端の大型音声言語モデルの現状と課題を明らかにしたものである。
本論文は、音声と動画データを統合して喉頭動画から重要なセグメントを抽出し、拡散モデルによる精緻化や角度偏差測定を用いて声帯麻痺の検出精度を向上させた支援診断システム「MLVAS」を提案し、その有効性を実証したものである。
この論文は、音声とテキストの情報を同期させて拡散モデルを用いることで、感情や移動を含む表現豊かな全身ジェスチャーを生成する新しいフレームワーク「ExpGest」を提案し、既存の手法よりも自然で制御性の高い結果を実現したことを示しています。
DCASE 2025 チャレンジのタスク 5 として発表された本論文は、海洋哺乳類の鳴き声から複雑な現実世界の音響シーンまで多様なドメインを跨ぐオーディオ質問応答(AQA)ベンチマークを提案し、音声言語モデルの推論能力向上と人間レベルの聴覚理解の実現を目指しています。
本論文は、AMP モジュールと新規の Multi-Envelope Discriminator を導入し、長尺音声生成における時間的整合性や周期性のモデル化を強化した GAN ベースのボコーダ「BemaGANv2」を提案し、各種識別器の組み合わせ戦略を客観的・主観的指標を用いて体系的に評価したものである。
本論文は、HVAC システムに組み込まれた圧力センサーのデータから複雑値コンフォーマーなどの技術を用いて明瞭な音声まで復元する「WaLi」という新たなプライバシー脅威を提示し、その有効性と対策を議論するものである。
本論文は、サブ・ナイキストサンプリングと低ビット解像度を意図的に採用することで消費電力を 3.31 倍削減しつつ、モバイルプラットフォーム上でリアルタイムに動作する広帯域音声再構成手法「SUBARU」を提案し、ノイズ環境下での高品質な音声強調を実現する実践的なアプローチを提示しています。
任意のサンプリングレートと可変長の信号に対応し、帯域分割アーキテクチャと周波数位置エンコーディングを統合した新しい基盤モデル「ECHO」を提案し、機械信号の異常検出や故障分類において最先端の性能を実現したことを報告する論文です。
この論文は、音声印象(VI)制御のための初の公開コーパス「LibriTTS-VI」を構築し、参照音声による印象の漏洩を軽減する新規手法(2 utterance による学習と参照不要制御)を提案することで、数値的な音声印象制御の精度を大幅に向上させたことを報告しています。
本論文は、HuBERT 特徴量を活用した X-Codec-2.0 の潜在レートとサンプリング周波数を調整する簡易な改良により、マルチリンガル音声の効率と音質を向上させ、25Hz 帯域で最高性能を達成したことを報告しています。
この論文は、メカニズム的解釈性を用いて大規模音声言語モデル(LALMs)における「聴く」信号を特定し、推論時の活性化介入によって音声への依存度を高めることで、パラメータ更新なしにモデルの精度を最大 8.0 ポイント向上させる手法を提案しています。
本論文は、マルチモーダル大規模言語モデル(MLLM)を用いて人間を代替し、低リソース音声分類タスクにおいて高速かつ解釈可能な音声属性を適応的に発見する手法を提案し、従来の人間依存型アプローチや直接予測よりも高い性能と実用性を示したことを述べています。
この論文は、生産ラインのシステムレベル故障検出を目的とし、複数の運転条件や工場ノイズ下で収集された音声と振動のマルチモーダル信号を含むチェーンコンベア用データセットと、その公平な評価のための標準化されたプロトコルとベンチマークを提案するものである。
この論文は、ウェアラブル型音響センサー「SonicGuard」を用いて腸音を記録し、エネルギーベースの検出アルゴリズムと事前学習済み Audio Spectrogram Transformer モデルを組み合わせることで、臨床医の作業時間を約 70% 削減しつつ高い精度で腸音の自動セグメンテーションと分類を実現するシステムを提案しています。
この論文は、音声認識において話者の口元の動きだけでなく、話の場面や画面上のテキストといった豊富な視覚的文脈を「見て」推論するマルチモーダル推論手法(AV-CoT)を提案し、単一モダリティへの依存を軽減して文脈認識型音声認識の性能を飛躍的に向上させたことを報告しています。
この論文は、Vocos を基盤としたニューラルボコーダーと軽量なリファイナーを組み合わせて、8-48 kHz の任意のアップサンプリング比率に対応し、GPU および CPU 上で極めて高速なリアルタイム処理を実現する音声帯域幅拡張モデルを提案しています。