Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability
이 논문은 문장 내 주의 지원이 안정적으로 유지된다는 관찰을 바탕으로, 기존 체크포인트를 재학습 없이 적용하여 긴 문맥과 추론 작업에서 1.6 배에서 14.4 배까지 추론 처리량을 향상시키면서도 품질을 유지하는 'Slow-Fast Inference'라는 새로운 추론 가속 프레임워크를 제안합니다.