Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control
この論文は、推論を最適制御問題として定式化し、シンプレクティック形式に基づくハードウェア効率の高い LQR ソルバーを実装した「テストタイム制御(TTC)層」を提案することで、事前学習済み大規模言語モデルに推論能力をアーキテクチャとして組み込み、数学的推論タスクにおいて顕著な性能向上を実現したことを報告しています。
6386 件の論文
この論文は、推論を最適制御問題として定式化し、シンプレクティック形式に基づくハードウェア効率の高い LQR ソルバーを実装した「テストタイム制御(TTC)層」を提案することで、事前学習済み大規模言語モデルに推論能力をアーキテクチャとして組み込み、数学的推論タスクにおいて顕著な性能向上を実現したことを報告しています。
この論文は、詳細平衡条件に基づく時間反転対称性を統計的制約として利用し、目標分布の勾配や連続緩和を必要とせずに、連続・離散・混合変数を含む多様な状態空間における平衡サンプリングを可能にする統一的な生成サンプリング枠組みを提案するものである。
この論文は、推論コストを増加させずに効率的な推論を実現するため、推論時に事前計算されたバイアスを追加する「長さ感知アテンション事前分布」と、検証改善時のみ作動する「ゲイン感知コントローラー」という 2 つのトレーニング専用コンポーネントを提案し、厳密な計算制約下で検証損失を削減しつつレイテンシを維持する手法を示しています。
この論文は、最適輸送を用いて学習済み表現間のワッサーシュタイン距離に基づく新しい転移学習汎化誤差 bound を導出し、グラフノード分類において従来の複雑性尺度よりも実証的な汎化性能と強く相関し、GNN の深さと汎化誤差の非単調な関係を説明する理論的枠組みを提案しています。
本論文は、脳の樹状突起のスパイク配列検出メカニズムを模倣し、勾配なしの再配線学習と非同期デジタルハードウェア・アーキテクチャを組み合わせることで、イベントベースの時系列データ分類において既存のニューロモルフィックハードウェアよりも最大4倍のエネルギー効率を実現する「DendroNN」という新たなニューラルネットワークを提案しています。
この論文は、ベイズ最適化におけるガウス過程トンプソンサンプリング(GP-TS)の解析を補完し、確率依存の多項式下限、累積後悔の二乗期待値の上限、緩和された期待後悔の上限、および時間 horizon に関する改善された累積後悔の上限など、新たな後悔境界を導出する。
この論文は、代理変数を用いた因果グラフモデルと変分オートエンコーダーに基づく二段階アプローチを提案し、調査や行政記録における体系的な測定誤差を特定・補正する枠組みを構築するものである。
この論文は、ゴードンの比較定理を用いてガウス混合モデルに基づく機械学習の訓練アルゴリズムの進化を解析しやすい擬似動力学系と結びつける非漸近的な定理を提示し、動的平均場理論の正当性を厳密に証明するとともに、非漸近領域におけるより高精度な近似手法を提案するものです。
本論文は、マルチモーダル医療画像セグメンテーションにおいて欠損モダリティが生じる際の問題に対処するため、モダリティ専門家間の合意を制御する「CLoE」という一貫性学習フレームワークを提案し、欠損状況下でも臨床的に重要な構造のセグメンテーション性能を向上させることを実証したものである。
この論文は、自然言語のタスク記述とエージェントの経験から得られる言語埋め込みを比較することで、環境からの報酬が希薄な場合でも強化学習の探索を促進し、収束速度と汎化性能を向上させる汎用的な暗黙的報酬メカニズム「Reward-Zero」を提案しています。
本論文は、グラフ異常検出におけるドメインシフトの根本的な原因である「異常非アソート性(Anomaly Disassortativity)」を特定・定量化し、これに基づいて単一の訓練段階で多様なドメインにわたる汎用的な異常検出を可能にする新しいグラフ基盤モデル「TA-GGAD」を提案し、14 の実世界グラフを用いた実験で最先端の性能を達成したことを報告しています。
本論文は、材料押出積層造形における表面粗さの予測精度向上とプロセス計画の効率化を目指し、実験データと条件付生成敵対的ネットワークを組み合わせたデータ駆動型予測モデルを構築し、3D モデル上で粗さ分布を可視化するインタラクティブな意思決定支援システムを開発したものである。
この論文は、勾配に依存しないゼロ次最適化と差分プライバシーを組み合わせた新たなデータ凝縮手法を提案し、決定木やコックス回帰など広く使われている非微分可能な臨床モデルでも、患者の機密情報を保護しつつ高品質な合成データによるモデル共有を可能にすることを示しています。
この論文は、ノードレベルとハイパーエッジレベルの両方の目的を組み合わせた対照学習と、クラスタリング指向のガイダンスによる埋め込みとクラスタ割り当ての同時最適化を行うエンドツーエンド手法「CAHC」を提案し、8 つのデータセットで既存手法を上回る性能を実証するものです。
本論文は、Voronoi 図に基づく微分可能なセンサ配置最適化と PINN を統合した「VSOPINN」を提案し、限られたセンサデータや一部故障下でも高精度な流体場再構成を実現する手法を、複数の流れ場シミュレーションで実証したものである。
本論文は、オフラインデータとオンライン探索の安全な統合を可能にするため、低次元潜在空間での探索から生動作空間への制御をシームレスに移行させるカリキュラム学習フレームワーク「SPAARS」を提案し、その理論的保証と厨房・ロボットアームタスクにおける高いサンプル効率と性能向上を実証しています。
本論文は、DiT-XL/2 の FLOPs の 50% 未満で同等の性能を達成し、さらに 4 GPU 環境でのトレーニングを可能にする「FCDM」と呼ばれる完全畳み込み拡散モデルを提案し、現代の畳み込み設計が拡散モデルのスケーリングにおいて効率的かつ競争力のある代替手段となり得ることを示しています。
本論文は、高密度都市環境における低頻度 GPS 軌跡の道路ネットワークマッピング精度と計算効率を向上させるため、Spatial-Temporal Matching アルゴリズムに動的バッファや適応型観測確率などの 4 つの改良を提案し、ミラノの実データを用いてその有効性を検証したものである。
この論文は、産業プロセス制御におけるシミュレーションから実世界への強化学習の転移を改善するため、状態構成や報酬設計などのマルコフ決定過程(MDP)の設計選択が転移性能に与える影響を系統的に分析し、物理ベースのダイナミクスモデルが厳密な精度制約下で最大 50% の実世界成功を達成することを示しています。
この論文は、文脈付きバンディットにおけるオフポリシー評価の課題に対し、逆確率重み付け(IPW)の分散を低減するノンパラメトリック重み付け(NW)法と、さらに報酬予測を組み合わせたモデル支援型ノンパラメトリック重み付け(MNW)法を提案し、既存手法よりも低い分散と低いバイアスを実現することを示しています。