Efficient Reasoning at Fixed Test-Time Cost via Length-Aware Attention Priors and Gain-Aware Training
この論文は、推論コストを増加させずに効率的な推論を実現するため、推論時に事前計算されたバイアスを追加する「長さ感知アテンション事前分布」と、検証改善時のみ作動する「ゲイン感知コントローラー」という 2 つのトレーニング専用コンポーネントを提案し、厳密な計算制約下で検証損失を削減しつつレイテンシを維持する手法を示しています。