Preference Packing: Efficient Preference Optimization for Large Language Models
이 논문은 동일한 입력 프롬프트에 대한 서로 다른 응답을 사용하는 선호도 최적화 (DPO 등) 훈련 시 중복 프롬프트의 어텐션 연산과 KV 캐시 메모리 사용을 줄여 훈련 시간을 최대 37% 단축하고 기존 최적화 기법과 결합 시 3.22 배의 속도 향상을 이루는 '선호도 패킹 (Preference Packing)' 기법을 제안합니다.