Fast and Flexible Audio Bandwidth Extension via Vocos
この論文は、Vocos を基盤としたニューラルボコーダーと軽量なリファイナーを組み合わせて、8-48 kHz の任意のアップサンプリング比率に対応し、GPU および CPU 上で極めて高速なリアルタイム処理を実現する音声帯域幅拡張モデルを提案しています。
7103 件の論文
この論文は、Vocos を基盤としたニューラルボコーダーと軽量なリファイナーを組み合わせて、8-48 kHz の任意のアップサンプリング比率に対応し、GPU および CPU 上で極めて高速なリアルタイム処理を実現する音声帯域幅拡張モデルを提案しています。
この論文は、関数のスペクトル分解における構造化された疎性を検出することで、生成子空間の最適化に依存せず連続対称性を発見する、一般化フーリエ変換に基づく新しい枠組みを提案し、その有効性を双振り子やトップクォークタグ付けなどのタスクで実証しています。
本論文は、人間の手を介さずに強化学習エージェントが自律的にニューラルアーキテクチャとハイパーパラメータを探索し、約 300 回の反復で手動チューニングされたベースラインに匹敵またはそれ以上の性能を達成する「AutoResearch-RL」という永続的自己評価フレームワークを提案するものである。
この論文は、広域かつ長期的な地域における郡レベルの作物収量予測の課題を解決するため、短期・長期の時間的パターンを捉える新アーキテクチャと、空間的変動への適応を強化する検索ベースの補強戦略を組み合わせた新しい予測フレームワークを提案し、米国 corn 収量データを用いた実験で既存手法を上回る性能を実証しています。
この論文は、セグメンテーションモデル(SAM)の画像エンコーダとマスクデコーダの特性を考慮し、構造とスペクトルを保持するトークンマージ手法「StructSAM」を提案することで、既存の手法よりも高い効率性と精度を両立させることを示しています。
この論文は、部分的に観測可能な強化学習における潜在状態分布のシフトに対する頑健性を向上させるため、敵対的な潜在初期状態分布を選択する設定を定式化し、理論的な証明と「戦艦」ベンチマークを用いた実証実験を通じて、構造化された敵対的曝露が最悪ケースの脆弱性を効果的に軽減することを示しています。
この論文は、高度な人工知能が目標達成のためにシャットダウンを阻止する懸念に対処するため、AI に「シャットダウンされること」を主目的とするという非伝統的な提案と、その有効性及び適用条件について論じている。
この論文は、微分プライバシーの手法に着想を得た「ShakyPrepend」という新しい多グループ学習アルゴリズムを提案し、既存手法よりも優れた理論的保証と、グループ構造および空間的不均一性への適応能力を実証実験を通じて示しています。
この論文は、正則化された最適化におけるパラメータノルムの階層をゆっくりと移動する「ノルム階層遷移(NHT)」フレームワークを提案し、ニューラルネットワークがスパースなショートカットから構造化された表現へ移行するタイミングと遅延のメカニズムを説明するものである。
本論文は、5G 網におけるリアルタイムかつリソース制約のある環境でのジャミング検出を実現するため、FPGA 展開に適した軽量で解釈可能な畳み込みツェトリン機械(CTM)を提案し、実 5G テストベッドを用いた実験により、従来の CNN に匹敵する検出精度を達成しつつ、トレーニング速度の大幅な向上とメモリ使用量の劇的な削減を実現したことを示しています。
本論文は、ブラックボックスモデルが学習した概念をスパースオートエンコーダとマルチモーダル LLM を用いて抽出・命名する「Mechanistic CBM(M-CBM)」を提案し、事前定義された概念に依存する既存の概念ボトルネックモデルよりも高い予測精度と説明性を実現することを示しています。
この論文は、異なる医療機関の記録慣行やワークフローに起因する系統的な分布のシフトに対処するため、生理学的要因と環境依存プロセスを分離する敵対的正則化と不変リスクペナルティを組み合わせたマルチモーダル臨床予測のための新しい表現学習フレームワークを提案し、これにより分布外での予測性能と較正精度を大幅に向上させることを示しています。
この論文は、局所的な経験と計算のみを用いて大域関数を学習する分散ガウス過程モデル「DistGP」を提案し、動的接続環境や非同期学習に対応しながら、中央集権的バッチ学習と同等の性能を達成し、既存の分散手法よりも高い精度とロバスト性を示すことを実証しています。
農業ビジョン分野におけるモデルの汎化性能向上を目指し、複数のチームが独立して収集した多様なフィールドデータを用いた「AgrI Challenge」というデータ中心のコンペティション枠組みと、クロスチーム検証(CTV)という評価手法を提案し、単一ソース学習の限界とマルチソース協調学習の有効性を示した。
この論文は、ネステッドドロップアウトを活用して拡散モデルや正規化フローなどの生成モデルに可変複雑性を導入し、圧縮センシングや画像復元などの逆問題において、固定複雑性のベースラインよりも低い再構成誤差を達成することを示しています。
本論文は、複数の予測時間軸における冗長な計算を削減しつつ、スパースな事象監視下で確率的な空間分布を生成する長期的な山火事リスク予測を実現するために、早期の去ノイズ段階を共有し後段で分岐する階層的拡散モデル「N-Tree Diffusion」を提案し、実世界のデータセットを用いた評価で精度向上と推論コストの削減を実証したものです。
本論文は、1 億パラメータ未満の「極小モデル」領域におけるスケーリング則を初めて実証し、モデルサイズの変化に伴う誤分類パターンの転換や、中規模モデルで最も誤った確率が高いという_calibration_の逆説的現象を明らかにし、エッジ AI 向けにはターゲットサイズでの検証が不可欠であることを示しています。
本論文は、ユーザー位置情報を用いてチャネル状態情報(CSI)の推定を不要とし、階層型マルチエージェント強化学習(HMARL)を採用することで、ミリ波通信におけるビームフォーカスの制御効率とスケーラビリティを大幅に向上させる新たな枠組みを提案しています。
この論文は、実験的なオラクルへの依存なしに、生成された分子候補が所望の性質を満たす確実性を統計的に保証し、かつ候補集合を効率的に絞り込むための新しい分布フリーフレームワーク「ConfHit」を提案しています。
この論文は、リソースが限られたインド諸語の機械翻訳における品質推定(QE)の課題を解決するため、閉鎖型および開放型の大規模言語モデル(LLM)を対象にプロンプト手法を比較し、中間層への低ランク適応(ALOPE および LoRMA)を導入することで、特に高リスク領域において頑健な品質推定を実現する方法を提案し、関連データとコードを公開したことを報告しています。