Efficient Reasoning at Fixed Test-Time Cost via Length-Aware Attention Priors and Gain-Aware Training
이 논문은 추론 시 비용 증가 없이 구조화된 정확한 추론을 가능하게 하기 위해, 추론 시에는 캐시된 편향만 추가하고 훈련 시에만 활성화되는 길이 인식 어텐션 사전과 이득 인식 제어기를 도입하여 제한된 컴퓨팅 자원 하에서도 검증 손실을 줄이는 효율적인 방법을 제안합니다.