Sequential-Parallel Duality in Prefix Scannable Models

이 논문은 병렬 학습과 순차 추론을 동시에 지원하는 '접두어 스캔 가능 모델 (Prefix-Scannable Models)'이라는 새로운 범주를 정의하여 기존 아키텍처를 통합하고, 새로운 연산자를 통해 효율성과 표현력을 동시에 달성하는 모델을 제안합니다.

Morris Yau, Sharut Gupta, Valerie Engelmayer, Kazuki Irie, Stefanie Jegelka, Jacob Andreas

게시일 2026-03-12
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏗️ 1. 문제 상황: 두 가지 세계의 갈등

현재 AI 모델 (특히 '트랜스포머') 은 두 가지 큰 문제를 안고 있습니다.

  1. 학습할 때는 빠르지만, 추론할 때는 느리다:

    • 비유: 공장에서 제품을 대량 생산할 때는 모든 공장을 동시에 가동해서 (병렬) 아주 빠르게 만들 수 있습니다. 하지만, 고객이 하나씩 주문할 때 (추론) 마다, 그전까지 만든 모든 제품 목록을 다시 다 뒤져야 하므로 시간이 너무 오래 걸립니다.
    • 결과: 문장이 길어질수록 메모리도, 시간도 기하급수적으로 늘어납니다.
  2. 기존 RNN(순환 신경망) 은 반대:

    • 비유: 공장이 아니라, 한 사람이 일일이 순서대로 제품을 만들어 나가는 방식입니다. 주문할 때는 아주 빠르고 메모리도 적게 쓰지만, 대량 생산 (학습) 을 할 때는 한 번에 하나씩만 만들 수 있어 매우 비효율적입니다.

핵심 질문: "학습할 때는 모든 공장을 동시에 가동하고, 주문할 때는 한 사람처럼 빠르고 가볍게 작동하는 완벽한 하이브리드 공장을 만들 수 있을까?"


🔍 2. 해답: '접두어 스캔 (Prefix Scan)'이라는 마법 도구

저자들은 이 문제를 해결하기 위해 컴퓨터 과학의 고전적인 알고리즘인 **'접두어 스캔 (Prefix Scan)'**을 활용합니다.

  • 비유 (계단 오르기):
    • 기존 방식: 100 개의 계단을 오를 때, 1 단계부터 2 단계, 3 단계... 순서대로 하나씩 올라가야 합니다. (순차적)
    • 접두어 스캔: 100 명을 2 명씩 짝을 지어, "1+2", "3+4"를 동시에 계산하게 합니다. 그다음 그 결과들을 다시 짝지어 "14", "58"을 계산합니다. 이렇게 이진 트리 (Binary Tree) 구조로 계단을 올라가면, 100 계단을 아주 짧은 시간 (로그 시간) 에 정복할 수 있습니다.

이 논문의 핵심은 **"이 '접두어 스캔' 방식을 AI 의 상태 업데이트에 적용하면, 학습은 병렬로, 추론은 순차적으로 아주 효율적으로 할 수 있다"**는 것입니다.


🚀 3. 새로운 모델: PSM (접두어 스캔 가능 모델)

저자들은 이 원리를 확장하여 PSM이라는 새로운 모델 클래스를 정의했습니다.

A. 기존 모델들 (선형 RNN, Mamba 등)

  • 비유: 이 모델들은 '접두어 스캔'을 할 때, **덧셈 (+)**처럼 규칙이 단순하고 예측 가능한 (결합 법칙이 성립하는) 연산을 사용합니다.
  • 장점: 매우 빠르고 효율적입니다.
  • 한계: 너무 단순한 규칙이라 복잡한 문맥 이해 (예: "누가 무엇을 했는지" 같은 복잡한 관계) 를 배우는 데는 약점이 있을 수 있습니다.

B. 새로운 모델: Transformer-PSM

  • 비유: 저자들은 "단순한 덧셈만 쓸 필요는 없다!"라고 말합니다. 대신 **소프트맥스 (Softmax)**처럼 복잡한, 규칙이 조금 더 유연한 (결합 법칙이 성립하지 않는) 연산을 '접두어 스캔'에 적용할 수 있습니다.
  • 어떻게? 문장을 작은 '조각 (Chunk)'으로 나누고, 그 조각들 사이를 오가는 복잡한 관계 (트랜스포머의 주의 메커니즘) 를 계산하되, 그 결과를 이진 카운터 (Binary Counter) 방식의 메모리 구조에 저장합니다.
  • 효과:
    • 학습: 모든 조각을 동시에 계산 (병렬).
    • 추론: 문장이 길어져도 메모리는 로그 (Log) 수준으로만 늘어나고, 한 번에 처리하는 속도는 일정하게 유지됩니다.
    • 기적: 기존 트랜스포머처럼 복잡한 문맥을 이해하면서도, Mamba 처럼 가볍고 빠릅니다.

🧪 4. 실험 결과: 실제로 작동할까?

저자들은 이 모델을 여러 가지 테스트에 적용했습니다.

  1. 상태 추적 (State Tracking):

    • 상황: "컵을 A 에서 B 로, B 에서 C 로 옮겼다"는 식의 복잡한 순서를 기억하는 게임입니다.
    • 결과: 기존 모델 (트랜스포머, Mamba) 은 문장이 길어지면 실수가 잦아졌지만, Transformer-PSM은 훈련된 길이보다 훨씬 긴 문장에서도 거의 완벽하게 기억해냈습니다. (길이에 대한 일반화 능력이 뛰어남)
  2. 연관 기억 (Associative Recall):

    • 상황: "사과"라는 단어가 나왔을 때, 문장 앞부분에 있던 "빨간색"을 기억해내는 작업입니다.
    • 결과: 문장 조각 (Chunk) 의 크기를 조절하면, 트랜스포머의 정밀한 기억 능력과 RNN 의 빠른 속도를 모두 잡을 수 있었습니다.
  3. 언어 모델링 (WikiText):

    • 결과: 기존 GPT-2 와 비슷한 수준의 언어 이해 능력을 보이면서, 문장이 길어질수록 지연 시간 (Latency) 이 거의 늘어나지 않았습니다.

💡 5. 결론: 왜 이것이 중요한가?

이 논문은 **"학습은 무작정 빠르게, 추론은 가볍게"**라는 AI 의 오랜 딜레마를 해결할 수 있는 새로운 설계 도면을 제시합니다.

  • 핵심 메시지: 우리는 더 이상 "빠르지만 멍청한 모델"과 "똑똑하지만 느린 모델" 사이에서 선택할 필요가 없습니다. 접두어 스캔이라는 수학적 도구를 통해, **두 마리 토끼를 모두 잡을 수 있는 모델 (Transformer-PSM)**을 만들 수 있습니다.

한 줄 요약:

"AI 가 문장을 읽을 때, 처음부터 끝까지 한 줄로 읽는 게 아니라, 작은 블록으로 나누어 동시에 계산하되, 기억할 때는 아주 작은 메모리만 쓰는 새로운 방식을 제안합니다. 이는 더 길고 복잡한 문장을 처리하면서도 속도가 느려지지 않는 차세대 AI 의 핵심 열쇠가 될 것입니다."