원저자: Mark Obozov, Maxime Griot, Joseph Cummings, Evan Smothers, Felipe Mello, Rafi Ayub, Philip John Bontrager, Salman Mohammadi, Ariel Kwiatkowski, Nathan Azrak, Mircea Mironenco

게시일 2026-05-21✓ Author reviewed ⓘ

📖 4 분 읽기☕ 가벼운 읽기

CC BY 4.0

원저자: Mark Obozov, Maxime Griot, Joseph Cummings, Evan Smothers, Felipe Mello, Rafi Ayub, Philip John Bontrager, Salman Mohammadi, Ariel Kwiatkowski, Nathan Azrak, Mircea Mironenco

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

거대하고 매우 똑똑한 로봇 (대형 언어 모델) 이 거대한 도서관의 책들을 통해 이미 읽기와 쓰기를 배웠다고 상상해 보세요. 이제 시를 쓰거나 의학 질문에 답하는 것과 같은 구체적인 새로운 기술을 가르치고 싶다면, 이 과정은 "사후 학습" 또는 "파인튜닝"이라고 불립니다.

이 논문은 이러한 학습 과정을 더 빠르고, 저렴하며, 이해하기 쉽게 만들어 주는 새로운 도구인 torchtune을 소개합니다. 간단한 비유를 들어 작동 방식을 설명해 보겠습니다:

1. 문제: "블랙박스" 대 "레고 세트"

torchtune 이전에는 이러한 로봇을 가르치는 대부분의 도구가 조립된 가구와 같았습니다. 책상 (학습 레시피) 을 구매하면 잘 작동했지만, 다리를 바꾸거나 마감재를 변경하고 싶다면 망치로 부수어야 했습니다. 이러한 도구들은 종종 다른 거대하고 복잡한 시스템 위에 구축되어 있어 수정하거나 조정하기 어려웠습니다. 무언가 고장 나면 다른 소프트웨어 레이어 안에 숨겨진 지시 사항들 때문에 왜 고장 났는지 알 수 없었습니다.

torchtune은 다릅니다. 이는 레고 세트와 같습니다.

모듈화: 하나의 거대한 블록 대신 개별 벽돌 (모델 빌더, 데이터 로더, 옵티마이저) 을 제공합니다. 전체 구조를 깨뜨리지 않고 벽돌을 다른 색이나 모양으로 교체할 수 있습니다.
투명성: 모든 벽돌이 어떻게 연결되는지 정확히 볼 수 있습니다. 숨겨진 레이어가 없습니다. 로봇이 학습하는 방식을 변경하고 싶다면 특정 조각 하나만 교체하면 되고 나머지는 그대로 유지됩니다.

2. "In-Backward" 트릭: 걸으면서 먹기

이러한 로봇을 학습시킬 때 가장 큰 골치 아픈 문제 중 하나는 메모리입니다. 방 전체를 가로지르며 종이 더미 (기울기) 를 들고 다니면서 동시에 그 위에 메모를 작성하려고 상상해 보세요. 무언가를 할 수 있기 전에 그 더미를 들고 있을 공간이 많이 필요합니다.

torchtune 은 **"in-backward optimizer fusion"**이라는 교묘한 트릭을 도입합니다.

옛 방식: 모든 종이를 모아서 책상까지 운반한 다음, 그리고 나서 메모를 작성합니다. 이는 거대한 책상 (메모리) 을 필요로 합니다.
torchtune 방식: 종이를 집어 드는 순간 각 종이에 메모를 작성한 후 즉시 종이를 버립니다. 한 번에 전체 더미를 들고 있을 필요가 없습니다.
결과: 이는 막대한 양의 메모리를 절약합니다. 논문은 이것이 컴퓨터가 메모리 부족으로 충돌하는 것과 표준 하드웨어에서 거대 모델 (예: Llama 3.3 70B) 을 성공적으로 학습시키는 것 사이의 차이점이라고 주장합니다.

3. "Loss Parallel" 트릭: 케이크 자르기

로봇이 자신의 수행 정도 (손실) 를 계산할 때, 종종 메모리를 많이 차지하는 거대하고 밀집된 숫자 스프레드시트를 생성합니다.

비유: 1,000 명을 위한 케이크를 한 번에 굽는다고 상상해 보세요. 하나의 오븐에는 너무 큽니다.
해결책: torchtune 은 케이크를 더 작은 조각으로 잘라 서로 다른 오븐 (서로 다른 프로세서) 에서 동시에 굽습니다. 거대한 케이크 전체를 한곳에 보관하려고 시도하지 않습니다. 이를 통해 시스템은 공간 부족 없이 거대한 어휘를 가진 모델을 처리할 수 있습니다.

4. "Async" 공장: 조립 라인

고급 학습 (예: 강화 학습) 의 경우, 로봇은 "생각" (답변 생성) 하고 나서 "학습" (뇌 업데이트) 해야 합니다. 보통 이는 페인트 작업 스테이션이 조립 라인이 바쁠 때 유휴 상태로 남아 있는 공장처럼 하나씩 순차적으로 발생합니다.

torchtune 의 접근법: 그들은 비동기 조립 라인을 구축했습니다.
작동 방식: 한 팀의 작업자가 페인트 작업 (답변 생성) 에 바쁠 때, 다른 팀은 이미 조립 (학습) 에 바쁩니다. 그들은 작업물을 서로 전달하기 위해 컨베이어 벨트 (큐) 를 사용합니다. 이로 인해 공장이 멈추고 시작하는 대신 100% 의 용량으로 계속 가동됩니다.

5. 결과: 속도와 효율성

저자들은 torchtune 을 다른 인기 있는 도구 (Axolotl 과 Unsloth) 와 비교하여 테스트했습니다.

경주: 직접 대결에서 torchtune 은 종종 학습을 더 빠르게 완료하거나 더 적은 메모리를 사용했습니다.
"OOM"(메모리 부족) 수정: 가장 큰 모델들의 경우, 다른 도구들은 메모리 부족으로 인해 자주 충돌했습니다. torchtune 은 "걸으면서 먹기"와 같은 메모리 절약 트릭을 사용하여 다른 도구들이 실패한 곳에서 이러한 거대 모델을 학습할 수 있었습니다.
유연성: 레고처럼 구축되었기 때문에 연구자들은 이러한 트릭들을 섞어서 사용할 수 있습니다. 그들은 모든 트릭을 함께 사용할 때 가장 좋은 결과가 나왔지만, 필요에 따라 하나만 사용할 수도 있음을 발견했습니다.

요약

torchtune은 AI 학습을 잠긴 블랙박스가 아닌 투명하고 교체 가능한 블록 세트로 취급하는 새로운 오픈소스 도구입니다. 데이터를 저장하는 대신 즉시 처리하여 메모리를 절약하고, 작업을 병렬로 실행하여 속도를 높이며, 연구자들에게 과정의 모든 부분을 조정할 수 있는 완전한 제어권을 제공합니다. 이 논문은 torchtune 이 작은 실험부터 대규모 산업용 모델 학습까지 기존 도구들보다 더 잘 작동함을 보여줍니다.

기술 요약: torchtune – PyTorch 네이티브 포스트-트레이닝 라이브러리

1. 문제 제기

현대적인 대규모 언어 모델 (LLM) 은 오픈 가중치 모델을 하위 작업에 적응시키기 위해 다단계 포스트-트레이닝 파이프라인 (지도형 미세 조정, 선호도 최적화, 증류, RL 기반 정렬) 에 크게 의존합니다. 그러나 이 단계를 위한 기존 프레임워크는 상당한 트레이드오프에 직면해 있습니다:

복잡한 의존성 스택: transformers 및 인접 라이브러리를 기반으로 구축된 프레임워크는 광범위한 전이 의존성을 물려받아 배포와 재현성을 복잡하게 만듭니다.
긴밀한 결합: 모델 구성, 트레이너 로직, 분산 정책, 어댑터 삽입은 종종 공장 레이어를 통해 추상화되어 있어, 기본 PyTorch 모듈을 변경하지 않고는 세밀한 수정이 어렵습니다.
불균등한 성능 접근성: 범용 구현은 종종 현대적인 PyTorch 성능 경로 (예: FSDP2, DTensor, torch.compile, 손실 병렬화) 를 활용하지 못하며, 커널 특화 시스템은 종종 트레이닝 루프의 투명성을 희생합니다.
분산된 지원: 다양한 포스트-트레이닝 레시피 (SFT, DPO, PPO, GRPO, KD) 는 종종 별도의 라이브러리에 존재하여 통제된 비교를 방해합니다.
분산 구성 가능성: 멀티 노드 트레이닝, 텐서 병렬화, 컨텍스트 병렬화에 대한 지원은 프레임워크 간에 일관성이 부족하여 서로 다른 규모에서 서로 다른 백엔드가 필요합니다.

2. 방법론 및 설계 원칙

torchtune은 포스트-트레이닝 수명을 간소화하도록 설계된 PyTorch 네이티브 라이브러리로 소개됩니다. 단일화된 트레이너와 달리, 이는 경직된 추상화보다는 구성 가능한 빌딩 블록을 중심으로 구축됩니다.

핵심 아키텍처

모듈식 구성 요소: 이 라이브러리는 모델 조립을 트레이닝 로직과 분리합니다. 모델 빌더는 명시적으로 Transformer 블록을 구성하여, 공유 디코더 로직이나 트레이닝 레시피를 다시 작성하지 않고도 아키텍처 변형 (LoRA, 양자화, 커스텀 어텐션 커널) 을 로컬에서 교체할 수 있게 합니다.
YAML 기반 레시피: Hydra 에서 영감을 받아, 레시피는 YAML 구성으로 매개변수화된 트레이닝 절차 (예: SFT, DPO, GRPO) 를 정의합니다. 구성 요소 (모델, 데이터셋, 옵티마이저, 손실) 는 독립적으로 교체 가능합니다. 명령줄 재정의는 스윕 스타일 실험을 가능하게 합니다.
네이티브 PyTorch 구현: torchtune 은 transformers 대응 버전과 수치적으로 동일하지만 읽기와 수정이 더 간단한 현대적 오픈 소스 LLM (예: Llama, Qwen) 의 순수 PyTorch 참조 구현을 제공합니다. 이는 Hugging Face Hub 및 TorchAO 와의 상호 운용성을 유지하면서 transformers 트레이닝 루프에 대한 의존성을 제거합니다.

주요 기술적 혁신

역방향 최적화 융합 (In-Backward Optimizer Fusion):
- 메커니즘: 전체 역방향 전파를 위해 기울기를 누적한 후 업데이트하는 대신, 각 매개변수의 기울기가 사용 가능해지는 즉시 옵티마이저 업데이트를 수행합니다.
- 구현: 래퍼는 매개변수당 하나의 옵티마이저 객체를 인스턴스화하고, step()과 zero_grad()를 즉시 호출하도록 기울기 누적 후 후크를 등록합니다.
- 이점: 기울기 텐서의 수명을 줄여 피크 기울기 메모리를 크게 낮춥니다. 이는 제한된 하드웨어에서 대규모 모델 (예: Llama 3.3 70B) 을 적합시키는 데 중요합니다.
- 제약: 역방향 전파당 하나의 옵티마이저 업데이트 ( $K=1$ ) 를 가정하므로, 기울기 누적이 필요한 경우 배치 크기를 조정해야 합니다.
선형 교차 엔트로피 (LCE) 손실:
- 메커니즘: 최종 출력 프로젝션과 교차 엔트로피 계산을 융합합니다. 무시된 토큰을 프로젝션 전에 마스킹하고 숨겨진 상태를 청크 단위로 처리합니다.
- 이점: 밀집된 $[B, S, V]$ 로그텐트의 물리적 생성을 방지하여, 특히 큰 어휘 크기에서 손실 계산 중 피크 메모리를 줄입니다. 이는 PyTorch 의 손실 병렬 컨텍스트와 구성됩니다.
구성 가능한 병렬화 스택:
- PyTorch 의 DTensor API 를 기반으로 구축되었습니다.
- FSDP2(2D 메시를 사용한 데이터 병렬화), 텐서 병렬화, 시퀀스 병렬화, 전문가 병렬화(MoE 용) 를 지원합니다.
- Ring Attention 을 통한 컨텍스트 병렬화를 포함합니다.
- 손실 병렬화는 전체 로그텐트 물리적 생성을 피하기 위해 어휘 차원 over 출력 특징을 쉐딩합니다.
비동기 GRPO:
- 설계: Ray 조정 큐와 재생 버퍼를 사용하여 롤아웃 생성을 정책 업데이트와 분리합니다.
- 아키텍처: 추론 (vLLM 기반 수집기), 후처리 (보상 계산), 트레이닝 (분산 워커) 을 분리합니다.
- 모드: 동기적 교대, 온-정책 비동기 중첩, 그리고 제한된 지연을 가진 제어된 오프-정책 롤아웃을 지원합니다.

3. 실험 결과

저자들은 0.6B 에서 70B 파라미터까지의 모델 (Qwen3, Llama 3.3) 을 사용하여 단일 GPU 및 멀티 GPU(8x H100) 환경에서 torchtune 을 Axolotl 및 Unsloth와 비교 평가했습니다.

주요 발견 사항

메모리 효율성:
- Optim Bwd: 기본 구성이 메모리 부족 (OOM) 오류를 발생시켰던 환경에서 8 개의 H100 에서 Llama 3.3 70B 트레이닝을 가능하게 했습니다.
- 활성화 체크포인트 (AC): 일관되게 피크 메모리를 줄여, 기본 구성이 실패했던 8B 모델이 실행되도록 했습니다.
- 저비트 옵티마이저: AdamW8Bit 이 절대적인 메모리 감소를 가장 크게 제공했습니다 (예: Qwen3-1.7B 는 11.7GB 에서 4.9GB 로 감소).
- 비교: 8B 모델에 대한 DPO 트레이닝에서 torchtune 은 표준 AdamW 를 사용하여 메모리 내에 적합되었으나, Axolotl 은 8 비트 옵티마이저가 필요하거나 완전히 실패했습니다.
처리량:
- 컴파일: torch.compile 은 중소형 모델에 대해 가장 신뢰할 수 있는 처리량 개선을 제공했습니다 (예: Qwen3-0.6B 는 5.2k 에서 7.9k 토큰/초로 증가).
- 시퀀스 패킹: 유효 토큰 활용률과 처리량을 크게 증가시켰습니다 (예: Qwen3-0.6B 는 패킹을 통해 57k 토큰/초에 도달).
- 시너지: 최적화 기법들은 상호 보완적인 것으로 발견되었습니다. 컴파일은 처리량을 주도하는 반면, 메모리 지향 기법 (AC, Optim Bwd, LCE) 은 더 큰 규모에서의 실현 가능성을 결정합니다.
유연성: 이 라이브러리는 트레이닝 루프를 다시 작성하지 않고도 전체 미세 조정, LoRA, QLoRA, 그리고 다양한 병렬화 전략을 성공적으로 지원했습니다.

4. 중요성 및 주장

이 논문은 torchtune을 재현 가능한 LLM 포스트-트레이닝 연구를 위한 실용적인 기반으로 위치시킵니다. 그 주요 중요성은 다음과 같습니다:

투명성과 해킹 가능성: 연구 표면이 실행된 PyTorch 코드에 가깝게 유지됨으로써, 연구자들이 고수준 트레이너의 "블랙박스" 성격을 피하고 트레이닝 루프를 직접 검사하고 수정할 수 있게 합니다.
균형 잡힌 트레이드오프: YAML 레시피를 통한 사용 편의성, 네이티브 PyTorch 최적화를 통한 성능, 모듈식 구성 요소를 통한 확장성을 성공적으로 균형 있게 조화시킵니다.
통합 프레임워크: 다양한 포스트-트레이닝 방법 (SFT, DPO, GRPO, KD) 을 단일 구성 가능 스택으로 통합하여, 서로 다른 알고리즘 및 최적화 전략 간의 통제된 비교를 용이하게 합니다.

저자들은 torchtune 이 고수준 자동화 트레이너와 저수준 성능 특화 커널 사이의 간극을 효과적으로 연결하면서, 빠른 실험과 효율적인 배포 지향 워크플로우를 가능하게 하고 빠른 연구 반복을 위해 충분히 유연하다고 주장합니다.

torchtune: PyTorch native post-training library