TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning
本論文は、推論モデルが過剰な思考(overthinking)を避けるため、最終回答の出現を予測して最適な推論長を学習し、Chain-of-Thought 出力を大幅に短縮する新しい早期終了戦略「TERMINATOR」を提案するものである。
12552 件の論文
本論文は、推論モデルが過剰な思考(overthinking)を避けるため、最終回答の出現を予測して最適な推論長を学習し、Chain-of-Thought 出力を大幅に短縮する新しい早期終了戦略「TERMINATOR」を提案するものである。
本論文は、事前学習済みモデルを凍結したまま参照表現に基づく画像セグメンテーションの精度を向上させるため、空間的・意味的な専門家の経路選択とパラメータ効率の高いアダプター機構を組み合わせた「SERA」という新しいアーキテクチャを提案し、実験によりその有効性を示したものです。
この論文は、2026 年時点でのリソース制約のあるエッジプラットフォームにおける埋め込み量子機械学習(EQML)の実現可能性を回路・システム視点から分析し、ハイブリッドワークフローや量子コプロセッサ統合という 2 つの実装経路、主要な技術的障壁、および実用的な量子インスパイアード手法の役割を明らかにするとともに、責任ある展開のためのガバナンスの重要性を論じています。
この論文は、エッジデバイスとクラウドサーバー間のネットワーク遅延やパケット損失などの現実的な通信条件をシミュレーション中に明示的にモデル化することで、分散強化学習のデプロイ性能を大幅に向上させる「CALF(通信意識学習フレームワーク)」を提案し、その有効性を検証したものである。
この論文は、拡散言語モデルの生成をマルコフ決定過程として定式化し、エントロピーに基づくステップ選択と中間アドバンテージ推定を用いて、シーケンス尤度を明示的に評価することなく効率的な強化学習を実現し、コーディングや論理的推論などのベンチマークで最先端の性能を達成する手法を提案しています。
本論文は、ツール出力の汚染がランキング指標では検出されずに安全でない推奨が広範に発生する「エージェントドリフト」現象を明らかにし、高リスク領域でのマルチターン LLM エージェントの評価には単なる品質指標ではなく、安全性を明示的に測定するトラジェクトリレベルの監視が必要であることを示しています。
既存の拡散モデルが抱える解剖学的な不整合やテクスチャ劣化の問題を解決するため、潜在空間におけるスタイルと構造の分離、マルチスケール特徴空間での低周波・高周波情報の統合、および構造認識損失の導入を通じて、任意の欠損モダリティに対しても高品質な多モーダル MRI 変換を実現する「MSG-LDM」というフレームワークを提案する論文です。
この論文は、曲率に基づく重要度スコアとモデル再構成を活用して、異質なエッジデバイス上で個人化された構造化プルーニングを実現し、収束性を保証しながら通信・計算コストを大幅に削減する「CA-HFP」という新しい連合学習フレームワークを提案し、その有効性を複数のデータセットとモデル構造で実証したものである。
この論文は、公共交通経路探索アルゴリズム(RAPTOR 系列など)の転送緩和フェーズにおける計算効率を最適性を損なわずに最大 57% 向上させる「Early Pruning」という低オーバーヘッドな手法を提案し、これにより計算コストの削減を通じてより広範な転送半径や多様な移動手段の統合を可能にすることを示しています。
この論文は、従来の RLHF が抱える個人化の限界と変分選好学習(VPL)における事後崩壊の問題を解決するため、架空の交換アノテータの選好の対称性を利用した「Swap-guided Preference Learning(SPL)」を提案し、ユーザー固有の潜在変数の有効性と選好予測の精度向上を実証したものです。
この論文は、PPO の反復更新に伴うノイズ問題を解決し、計算リソースを「深さ」から「幅」へ転換することで、環境との相互作用を増やすことなく連続制御タスクで最大 8.6 倍の性能向上を実現する「CAPO(Consensus Aggregation for Policy Optimization)」を提案しています。
本論文は、ドメイン知識に基づいたコード計画と反復的フィードバックを経てペンローズシステムで描画するエージェント「Feynman」を提案し、これにより 10 万組以上の高品質な図解とキャプションの対データを生成するとともに、視覚推論能力を評価するための新たなベンチマーク「Diagramma」を構築したことを報告するものである。
本論文は、否定表現を含む視覚言語グラウンディングの課題を解決するため、正負両方の意味を注釈した新しいデータセット「D-Negation」と、限られたサンプルから否定意味を学習するグループ化された対立ベースの学習フレームワークを提案し、既存モデルの少数パラメータ微調整のみで正負両方の評価指標を大幅に向上させることを示しています。
本論文は、自律運転における強固な経路計画を実現するため、相対的な位置関係を予測する「Displacement-Aware Predictive Encoding」と、状況に応じて最適なデコーダーを動的に選択する「Context-Adaptive Multi-Expert Decoder」を導入した新しい模倣学習フレームワーク「CarPLAN」を提案し、nuPlan ベンチマークで最先端の性能を達成したことを報告しています。
本論文は、高次元ヒューマノイド制御における最大エントロピー強化学習の課題を克服し、次元ごとのエントロピー変調と連続分布クリティックを導入した FastDSAC 枠組みにより、確率的方策が決定論的ベースラインを上回る性能を発揮することを示しています。
この論文は、文学的ナラティブを用いた新たなプローブ手法により、AI の倫理的推論能力と拒否行動を評価するクロスシステム枠組みを提示し、AI の能力向上に伴ってより精密に機能する「予見的評価指標」としての文学的ナラティブの有効性と、表面的な倫理的パフォーマンスと真の道徳的推論の間の隔たりが実測可能であることを示しています。
本論文は、スペキュレイティブデコーディングにおける検証フィードバックをオンライン学習のループとして活用し、動的後悔最小化に基づく理論的枠組み「OnlineSpec」を提案することで、ドラフトモデルを継続的に進化させ、推論速度を最大 24% 向上させる手法を確立したものです。
この論文は、大規模視覚言語モデルを用いてアイテム画像を自然言語記述にマッピングし、生の特徴融合ではなく意味的整合に基づく表現学習を行う軽量フレームワーク「VLM4Rec」を提案し、多モーダル推薦タスクにおけるその有効性を示しています。
この論文は、話者と聴覚の両方のモダリティに対応し、単一文字データからの学習や未見の文字・音節への汎化能力を備えた、中国語の音声生成と知覚を統合的に脳からテキストへ復号化する新たなフレームワークを提案し、大規模言語モデルの高度な後訓練により商業モデルを上回る性能を達成したことを報告しています。
この論文は、ゲーム理論モデルを用いて AI サプライチェーンにおける政策介入を分析し、プロ・価格競争政策や計算資源補助がコスト条件に応じて消費者余剰を最大化する一方、プロ・品質競争政策は常に消費者余剰を改善するが、下流企業の利益を減少させるなど、政策の効果がコスト構造や競争の性質によって異なることを示しています。