Overtone: Cyclic Patch Modulation for Clean, Efficient, and Flexible Physics Emulators
Overtone は、推論時にパッチサイズを動的に変化させることで周波数スペクトル上の誤差蓄積を分散し、固定パッチモデルに比べて長期的な予測誤差を最大 40% 削減するとともに、計算リソースに応じた柔軟な精度・速度のトレードオフを可能にする PDE サロゲートモデルです。
7354 件の論文
Overtone は、推論時にパッチサイズを動的に変化させることで周波数スペクトル上の誤差蓄積を分散し、固定パッチモデルに比べて長期的な予測誤差を最大 40% 削減するとともに、計算リソースに応じた柔軟な精度・速度のトレードオフを可能にする PDE サロゲートモデルです。
この論文は、API を通じたファインチューニングで生じる潜在的な「出現するアライメント崩壊(EMA)」を防ぐための、KL 発散や特徴量空間の距離制約、悪意のあるペルソナベクトルによる予防的誘導、そして一般指示データとの交差学習といった 4 つのトレーニング中の防御策を体系的に評価し、特にアライメント済みモデルと崩壊モデル間のパープレキシティの差に基づいてデータを交差させる手法が最も効果的であることを示しています。
この論文は、話者と歌唱の両方に対応し、プロソディやスタイル、音色を柔軟に制御可能な音声生成のための統合フレームワーク「Vevo2」を提案し、その有効性と汎用性を示したものである。
本論文は、多様な雑然とした環境において、歩行、把持、運搬、配置という一連の長期的な全身動作を単一の統合ポリシーで実行し、強化学習による教師ポリシーの蒸留と DAgger、そして視覚言語行動(VLA)モデルの活用を通じて、既存手法を大幅に上回る汎用性と頑健性を達成するヒューマノイド loco-manipulation のベンチマークと学習フレームワーク「LHM-Humanoid」を提案するものである。
本論文は、グラフリッチ曲率を用いた幾何学的分析により、GNN ベースの SAT ソルバーが困難なインスタンスで性能が低下する原因が、負の曲率に起因する「過圧縮(oversquashing)」現象にあることを示し、曲率が問題の複雑さや汎化誤差の予測指標となり得ることを実証的に明らかにしている。
本論文は、限られた計算資源下でもベトナム語と英語のコードスイッチング音声認識において、PhoWhisper-base などの既存手法を上回る Word Error Rate 19.06% を達成する、拡張ベトナム語音素セットを中間表現とする効率的な 2 段階音素中心アーキテクチャ「TSPC」を提案するものである。
この論文は、大規模な障害物回避を可能にするために特権情報(到達時間マップ)と新しい損失関数を活用した強化学習ベースの四旋回飛行ロボットナビゲーション手法を提案し、シミュレーションおよび屋外実機実験において高い成功率と安全性を実証したものである。
本論文は、外部ワンスに条件付けられたトランスフォーマー型拡散モデルとエネルギー保存則に基づくインピーダンス制御を組み合わせ、接触に富む操作タスクにおいてオンラインでインピーダンスを適応させ、高精度かつ安定した接触動作を実現する「拡散ベースのインピーダンス学習」フレームワークを提案するものである。
本研究は、LLM を基盤とする音声モデルが自然な会話の流暢性を欠く入力に対して構造的忠実度よりも意味の抽象化を優先する傾向があり、特に推論モデルが過剰な削除を行うことを示し、音声に対する頑健性が特定の学習目的によって形成されることを明らかにしています。
本論文は、エントロピー正則化の限界を克服し、シャノンエントロピーと均衡からの距離の積として定義される自己調整型の複雑さ項を導入することで、ハイパーパラメータの感度を低下させつつ報酬最適化に集中できる「複雑さ正則化付き近方方策最適化(CR-PPO)」を提案し、その有効性を示しています。
本論文は、拡散モデルの理論的整合性を保ちつつ粗いアンカー軌道から文脈を考慮した高品質な計画を生成する「BridgeDrive」という新しい拡散ブリッジ方策を提案し、自律運転の閉ループ計画タスクにおいて最先端の性能を達成したことを報告しています。
本論文は、教師モデルの隠れたバイアスが蒸留を通じて学生モデルに伝達される「潜在学習」のメカニズムを解明し、その伝達が稀な「発散トークン」に依存し、初期層の微調整で可能となる一方、プロンプトのわずかな変更でも抑制される脆弱な現象であることを示しています。
この論文は、トレーニングデータによる汚染を防ぎつつ言語モデルの推論能力を公平に評価するため、アルゴリズム的に動的に生成される数学的基盤を持つ問題セット「BeyondBench」を提案し、101 種類のモデルを対象とした評価を通じて複雑度の上昇に伴う推論能力の限界とツールの有用性を明らかにしたものである。
本論文は、ランダム・アダマール変換や確率的丸めなどの手法を組み合わせることで、120 億パラメータモデルを 10 兆トークンで NVFP4 精度で安定して学習させ、FP8 ベースラインと同等の性能を達成する新しいアプローチを提案し、大規模言語モデルの学習効率向上に貢献することを示しています。
本論文は、LLM がユーザーの個人差や文脈を自発的に特定し、それに応じて推論プロセスを適応させる「パーソナライズド推論」の必要性を指摘し、心理学的根拠に基づくペルソナを用いた対話型評価手法「PrefDisco」と、それに基づく微細なアライメント指標「PrefAlign」を提案することで、教育や医療など個人化が不可欠な分野におけるシステム開発の基盤を提供するものです。
本論文は、第一人称視点の観測ノイズに耐性を持つ軌道予測を実現するため、実世界ノイズを含む履歴とクリーンな未来軌道を対応させた初のベンチマーク「EgoTraj-Bench」を提案し、歴史的観測のノイズ除去と将来の運動予測を同時に行う双フローモデル「BiFlow」を開発して最先端の性能と堅牢性を示したものです。
本論文は、大規模言語モデルのハルシネーションやデータ間の関係性の欠如といった課題を解決するため、外部データソースから構築した知識グラフを活用して、意味的一貫性と解決可能性に優れたマルチモーダルエージェントタスクを自動生成するフレームワーク「Graph2Eval」およびその評価ベンチマーク「Graph2Eval-Bench」を提案し、既存手法よりもタスクの質とエージェント性能の識別力を大幅に向上させることを示しています。
脊椎疾患の AI 診断におけるレベル認識や多モーダル推論の課題を解決するため、臨床医と共同で脊椎専門の大規模データセット「SpineMed-450k」と評価基準「SpineBench」を構築し、これらを用いて微細な脊椎レベルの推論能力を飛躍的に向上させたことを示した論文です。
本論文は、異なる手の形状(モルフォロジー)を埋め込みと固有把持(eigengrasp)セットとして表現し、物体の点群と手首の姿勢に基づいて関節角度を直接生成するエンドツーエンドのフレームワーク「MachaGrasp」を提案し、これにより未知の物体や未学習のロボットハンドに対しても高い把持成功率と高速な推論を実現することを示しています。
本論文は、知識グラフを大規模言語モデルに統合する際、従来のプレフィックス結合の限界を克服し、局所的なグラフ構造を明示的な「グラフメモリ」として表現し、トランスフォーマー層におけるクロスアテンションを通じて生成時に微細な証拠を動的に検索可能にする「Graph-as-Memory Tuning (GMT)」という新しいパラダイムを提案し、知識グラフ補完タスクにおいて顕著な性能向上を実現したことを示しています。