Why Are Linear RNNs More Parallelizable?

이 논문은 선형 RNN(LRNN) 이 비선형 RNN 보다 병렬화가 용이한 이유를 복잡도 클래스 (Log-depth 회로 대 P-완전 문제) 와 오토마타 이론을 통해 이론적으로 규명하고, 다양한 LRNN 변형 간의 정밀한 표현력 차이를 분석하여 표현력과 병렬성 사이의 균형을 잡는 LLM 아키텍처 설계의 기초를 제공합니다.

William Merrill, Hongjian Jiang, Yanhong Li, Anthony Lin, Ashish Sabharwal

게시일 2026-03-06
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 핵심 문제: "순서대로 해야 하는가, 동시에 해도 되는가?"

AI 모델 (LLM) 이 긴 문장을 처리할 때 두 가지 방식이 있습니다.

  • 기존 방식 (비선형 RNN): 마치 한 명의 요리사가 요리를 하는 것과 같습니다.
    • 첫 번째 재료를 다듬고, 그다음에 두 번째 재료를 다듬고, 그다음에 세 번째...
    • 문제: 요리사가 한 번에 한 가지 일만 할 수 있으므로, 재료가 많으면 시간이 매우 오래 걸립니다. (순차적 처리)
    • 장점: 아주 복잡한 레시피 (수학적 문제) 를 풀 수 있는 뛰어난 두뇌를 가졌습니다.
  • 새로운 방식 (선형 RNN & 트랜스포머): 마치 수백 명의 요리사들이 팀을 이루어 일하는 공장과 같습니다.
    • 모든 재료를 동시에 준비하고, 동시에 자르고, 동시에 볶습니다.
    • 장점: 재료가 아무리 많아도 시간이 거의 걸리지 않습니다. (병렬 처리)
    • 단점: 너무 복잡한 레시피는 풀지 못할 수도 있습니다.

질문: "왜 선형 RNN 은 공장처럼 동시에 일할 수 있는데, 기존 비선형 RNN 은 계속 혼자 일해야 할까?"


2. 이 논문이 발견한 비밀: "계산의 깊이 (Depth)"

논문은 컴퓨터 이론 (복잡도 이론) 을 이용해 이 차이를 수학적으로 증명했습니다.

🧱 비선형 RNN: "미로 찾기"

  • 비유: 비선형 RNN 은 매우 복잡한 미로를 통과하는 것과 같습니다.
  • 특징: 앞의 단계를 완전히 해결하지 않으면 다음 단계로 갈 수 없습니다.
  • 결과: 이 미로를 해결하려면 컴퓨터가 **매우 깊은 계단 (O(log² n))**을 올라가야 합니다. 계단이 깊을수록 병렬로 일할 수 있는 여지가 적어집니다.
  • 위험성: 만약 이 미로가 너무 복잡해지면 (P-완전 문제), 아무리 많은 요리사를 불러도 동시에 일할 수 없습니다. 결국 한 명만 일해야 하는 상황이 됩니다.

🏗️ 선형 RNN: "간단한 사다리"

  • 비유: 선형 RNN 은 짧고 평평한 사다리를 오르는 것과 같습니다.
  • 특징: 각 단계가 서로 독립적이거나 매우 단순하게 연결되어 있습니다.
  • 결과: 이 사다리는 **매우 얕은 계단 (O(log n))**만 있습니다.
  • 장점: 얕은 계단이라면 수백 명의 요리사 (프로세서) 가 동시에 올라갈 수 있습니다. 트랜스포머 (Transformer) 와 거의 같은 속도로 병렬 처리가 가능합니다.

핵심 결론: 선형 RNN 은 "계산의 깊이"를 의도적으로 얕게 설계했기 때문에, 공장처럼 동시에 일할 수 있는 것입니다.


3. 선형 RNN 안에서도 차이가 있다? (세부 버전 비교)

논문은 선형 RNN 이 모두 똑같은 것은 아니라고 말합니다. 마치 공장 안에도 작업 방식에 따라 능력이 다르듯이요.

  1. PD 선형 RNN (Permutation-Diagonal):
    • 비유: 규칙적인 조립 라인.
    • 능력: 기본적인 문제 (NC1 클래스) 는 잘 풀지만, 아주 복잡한 수학 문제 (PNC1) 는 풀지 못합니다. 트랜스포머보다 조금 더 똑똑하지만, 여전히 "병렬 처리"에 최적화되어 있습니다.
  2. DPLR 선형 RNN (DeltaNet, RWKV-7 등):
    • 비유: 유연한 스마트 공장.
    • 능력: PD 버전보다 더 똑똑합니다. 아주 복잡한 수학 문제 (PNC1 클래스) 도 풀 수 있습니다.
    • 중요한 점: 아직도 병렬 처리가 가능합니다! 복잡한 문제를 풀면서도 공장처럼 동시에 일할 수 있는 '마법'을 부립니다. 이것이 최근 RWKV-7 이나 DeltaNet 이 각광받는 이유입니다.

4. 실험 결과: 이론이 현실로 증명되다

저자들은 이 이론을 검증하기 위해 인공적인 미션 (그래프 연결성 문제, 행렬 곱셈) 을 모델들에게 시켰습니다.

  • 그래프 연결성 (비선형 RNN 만 가능한 미션):
    • 비선형 RNN (기존 방식) 은 잘 해결했지만, 선형 RNN 과 트랜스포머는 실패했습니다.
    • 이유: 이 문제는 "깊은 미로"를 찾아야 하므로, 순차적으로 생각해야 하는 비선형 RNN 의 두뇌가 필요했기 때문입니다.
  • 행렬 곱셈 (선형 RNN 이 가능한 미션):
    • DPLR 선형 RNN (RWKV-7, DeltaNet) 은 이 복잡한 계산을 완벽하게 해결했습니다.
    • 이유: 이 문제는 "얕은 사다리"를 오르는 방식으로도 해결 가능하기 때문입니다.

5. 요약: 우리에게 어떤 의미가 있는가?

이 논문은 AI 개발자들에게 다음과 같은 지도를 제시합니다.

  1. 속도와 지능의 트레이드오프: "무조건 빠른 것"과 "무조건 똑똑한 것"은 종종 충돌합니다. 비선형 RNN 은 지능이 높지만 느리고, 선형 RNN 은 빠르지만 지능이 제한될 수 있습니다.
  2. 최적의 균형점 찾기: 하지만 **DPLR 선형 RNN (RWKV-7, DeltaNet)**은 이 두 마리 토끼를 잡을 수 있는 황금 지점입니다.
    • 트랜스포머만큼 빠르게 병렬 처리가 가능합니다.
    • 동시에 기존 비선형 RNN 에 버금가는 복잡한 계산 능력도 갖추고 있습니다.

마무리 비유:
과거의 AI 는 "한 명의 천재 요리사"가 천천히 요리를 했습니다. 트랜스포머는 "수천 명의 로봇"이 빠르게 요리를 했지만 복잡한 레시피는 못 했습니다. 이제 **선형 RNN (특히 DPLR 버전)**은 "수천 명의 로봇이면서도 천재 요리사처럼 복잡한 레시피도 해내는" 새로운 시대를 열었습니다.

이론적으로 증명된 이 발견은 앞으로 더 빠르고 똑똑한 AI 를 만드는 설계도의 기준이 될 것입니다.