Efficient Reasoning at Fixed Test-Time Cost via Length-Aware Attention Priors and Gain-Aware Training
Diese Arbeit stellt zwei rein trainingsseitige Komponenten vor, die durch längenbewusste Aufmerksamkeitspriors und einen gewinnbewussten Controller die Effizienz des logischen Schlussfolgerns bei festen Testzeitkosten verbessern, indem sie die Validierungsverluste senken, ohne die Inferenzlatenz oder den Speicherbedarf zu erhöhen.