Each language version is independently generated for its own context, not a direct translation.
🏭 거대한 AI 공장: "로보트"와 "작업대"
우리가 사용하는 AI(예: Llama 3.1) 는 수천억 개의 파라미터라는 거대한 지식 덩어리를 가지고 있습니다. 이 지식은 마치 거대한 도서관에 꽂혀 있는 수백만 권의 책과 같습니다.
하지만 이 도서관을 한 명의 사서 (GPU) 가 혼자서 관리하기엔 너무 큽니다. 책이 너무 많아서 책장 하나에 다 들어가지도 않고, 한 번에 모든 책을 찾아서 정리하는 데는 시간이 너무 오래 걸립니다.
그래서 연구자들은 이 도서관을 여러 명의 사서 (여러 개의 GPU) 가 나누어 맡게 하는 두 가지 전략을 제안했습니다.
1. 전략 A: "책장을 쪼개기" (텐서 병렬화, Tensor Parallelism - TP)
- 비유: 한 권의 거대한 책을 여러 사서가 페이지 단위로 나누어 동시에 읽는 방식입니다.
- 예를 들어, 100 페이지짜리 책을 4 명의 사서가 맡으면, 1 번 사서는 1
25 페이지, 2 번 사서는 2650 페이지를 동시에 읽습니다. - 장점: 한 번에 책을 읽는 속도가 매우 빨라집니다. (지연 시간, Latency 감소)
- 단점: 사서들이 서로 "내 페이지 읽었어?", "다음 페이지로 넘어가자"라고 수시로 대화해야 합니다. 이 대화 (통신) 시간이 길어지면 속도가 느려질 수 있습니다.
- 예를 들어, 100 페이지짜리 책을 4 명의 사서가 맡으면, 1 번 사서는 1
- 누가 좋아할까? "나는 지금 바로 답을 원해!"라고 급하게 물어보는 사용자에게 좋습니다. (예: 채팅, 실시간 번역)
2. 전략 B: "작업대를 나누기" (파이프라인 병렬화, Pipeline Parallelism - PP)
- 비유: 도서관을 여러 개의 **작업 구역 (스테이션)**으로 나누는 방식입니다.
- 1 번 사서는 책의 앞부분만 읽고, 2 번 사서는 그 다음 부분을 읽고, 3 번 사서는 마지막 부분을 읽습니다. 마치 조립 라인처럼요.
- 장점: 한 번에 한 권의 책만 처리하는 게 아니라, 1 번 사서가 2 번 책을 읽는 동안 2 번 사서는 1 번 책의 다음 부분을 읽을 수 있습니다. 즉, 여러 주문을 동시에 처리할 수 있어 전체 생산량 (처리량, Throughput) 이 늘어납니다.
- 단점: 한 번에 한 권의 책을 끝내는 데 걸리는 시간은 변하지 않습니다. (지연 시간 감소 효과는 적음)
- 누가 좋아할까? "나는 한 번에 수백 개의 문서를 요약해 줘."라고 대량으로 요청하는 기업이나 서버에 좋습니다.
⚖️ 연구 결과가 말해주는 것: "속도 vs 양"
이 논문은 이 두 가지 전략을 섞어서 쓸 때 어떤 일이 일어나는지 실험으로 증명했습니다.
속도가 중요할 때 (TP):
- 만약 당신이 "지금 당장 답이 필요해!"라고 한다면, TP(책장을 쪼개기) 전략이 가장 좋습니다.
- 하지만 너무 많은 사서 (GPU) 를 모으면 서로 대화하는 시간이 길어져서 오히려 느려질 수도 있습니다. 적정선을 찾아야 합니다.
양이 중요할 때 (PP):
- 만약 당신이 "한 번에 1,000 명에게 답을 줘야 해!"라고 한다면, PP(작업대 나누기) 전략이 훨씬 효율적입니다.
- PP 는 메모리 (책장 공간) 를 아껴주어 더 많은 주문을 동시에 받을 수 있게 해줍니다.
최고의 조합 (하이브리드):
- 연구자들은 TP 와 PP 를 섞어서 쓰는 것이 가장 현명하다고 말합니다.
- 마치 공장에서 "한 번에 처리하는 속도를 높이기 위해 책을 쪼개고 (TP), 동시에 여러 주문을 받기 위해 작업대를 늘리는 (PP)" 방식입니다.
- TP 의 정도를 조절하면 '속도'를 조절할 수 있고, PP 의 깊이를 조절하면 '처리량'을 조절할 수 있습니다.
💡 핵심 요약 (한 줄로 정리)
"거대한 AI 를 돌릴 때는, '빠른 답변'이 필요하면 책을 여러 사람이 나누어 읽고 (TP), '많은 주문'을 처리해야 하면 작업대를 여러 개 만들어 동시에 돌리는 (PP) 것이 정답입니다. 상황에 따라 이 두 가지를 적절히 섞으면 최고의 효율을 얻을 수 있습니다."
이 연구는 AI 서비스 제공자들이 고객의 요구 (빠른 응답 vs 대량 처리) 에 맞춰 가장 적합한 하드웨어 설정을 할 수 있도록 돕는 매뉴얼과 같은 역할을 합니다.