LEDOM: Reverse Language Model

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"LEDOM"**이라는 새로운 인공지능 모델을 소개합니다. 기존의 AI 가 어떻게 작동하는지, 그리고 이 새로운 모델이 왜 특별한지 쉽게 설명해 드릴게요.

1. 기존 AI 는 '앞에서 뒤로' 읽습니다 (Forward Model)

지금까지 우리가 알고 있는 대부분의 AI(예: 챗봇, 번역기) 는 책을 처음부터 끝까지 읽는 방식으로 학습합니다.

비유: 마치 독서 모임에서 한 사람이 "오늘 아침에 커피를 마셨어요."라고 말하면, 다음 사람은 "그럼 배고프지 않았나요?"라고 이어가는 것과 같습니다.
원리: 앞의 단어를 보고 뒤의 단어를 예측합니다. (Left-to-Right)
한계: 만약 "그는 커피를 마셨다"라고만 말하고 "왜?"라고 물으면, AI 는 앞의 맥락이 없기 때문에 이유를 추론하기 어렵습니다.

2. LEDOM 은 '뒤에서 앞으로' 읽습니다 (Reverse Model)

이 논문에서 만든 LEDOM은 정반대입니다. 책을 마지막 페이지부터 첫 페이지까지 거꾸로 읽는 방식으로 학습했습니다.

비유: 마치 수사관이 범죄 현장 (결과) 을 보고 범행 동기와 과정을 추리하는 것과 같습니다.
- 결과: "미키는 직장을 그만두고 사업을 시작했다."
- LEDOM 의 추리: "미키는 학교에서 열심히 공부했고, 가족 중 대학을 간 첫 번째 사람이었다. 하지만 그 직장은 그가 평생 하고 싶던 일이 아니었다."
특징: 결론 (결과) 을 먼저 보고, 그 결론에 도달하게 된 **이유 (전제)**를 만들어냅니다.

3. LEDOM 의 특별한 능력들

이 '거꾸로 읽기' 훈련을 통해 LEDOM 은 기존 AI 가 잘 못하던 일들을 잘하게 되었습니다.

추론 능력 (Abductive Inference): "왜 이런 결과가 나왔을까?"를 자연스럽게 설명합니다.
질문 만들기: 정답을 보고 "이 정답을 얻기 위한 질문은 뭘까?"를 만들어냅니다. (예: 정답이 "21 개"라면, "하루에 3 개씩 일주일 동안 먹으면 총 몇 개?"라는 질문을 만듦)
역설의 해결: 기존 AI 는 "A 는 B 다"라고 배웠을 때 "B 는 A 다"라고 추론하지 못하는 경우가 많습니다 (이를 '역전 저주'라고 부릅니다). 하지만 LEDOM 은 거꾸로 보니까 "B 는 A 다"라는 관계를 자연스럽게 이해합니다.

4. 두 AI 를 합치면 '초능력'이 생깁니다 (Reverse Reward)

논문에서 가장 흥미로운 부분은 기존 AI(앞에서 뒤로) 와 LEDOM(뒤에서 앞으로) 을 함께 쓰는 방법입니다.

상황: 기존 AI 가 수학 문제를 풀어서 답을 냈다고 가정해 봅시다.
문제: AI 가 엉뚱한 논리로 엉터리 답을 낼 수도 있습니다 (할루시네이션).
해결책 (Reverse Reward):
1. 기존 AI 가 답을 냅니다.
2. LEDOM 이 그 답을 보고 원래 문제 (질문) 를 다시 만들어보게 합니다.
3. 비유: 요리사가 만든 요리를 보고, "이 요리를 만들기 위해 어떤 재료가 필요했지?"라고 되돌려 물어보는 것입니다.
4. 만약 요리사가 엉터리 재료를 썼다면, LEDOM 이 원래 레시피 (문제) 를 다시 만들 때 엉망이 될 것입니다.
5. 이렇게 **뒤에서 앞으로 다시 만들어보는 과정 (재구성)**이 잘 안 되면, 그 답은 틀렸다고 판단하고 점수를 깎아줍니다.

5. 실제 효과

이 방법을 수학 문제 풀이에 적용했을 때, 기존 AI 들의 정답률이 최대 15% 까지 향상되었습니다. 특히 어려운 수학 경시대회 문제에서 엉뚱한 추론을 하는 경우를 잡아내어 정답을 찾게 해주는 '진단 도구' 역할을 했습니다.

요약

기존 AI: 앞의 이야기를 듣고 뒤를 이어 말함 (스토리텔러).
LEDOM: 뒤의 결론을 보고 앞의 이유를 추리함 (수사관).
함께 쓰면: 수사관이 스토리텔러의 이야기를 검증하여, 거짓말이나 엉뚱한 추리를 찾아내고 더 정확한 답을 도출함.

이 연구는 AI 가 단순히 글을 이어 쓰는 것뿐만 아니라, 결과를 보고 원인을 추론하는 능력을 키우는 것이 얼마나 중요한지, 그리고 두 가지 방향을 함께 쓸 때 더 똑똑해질 수 있음을 보여줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

기존의 대규모 언어 모델 (LLM) 은 텍스트를 **왼쪽에서 오른쪽 (Left-to-Right, L2R)**으로 순차적으로 생성하는 자기회귀 (Autoregressive) 방식으로만 훈련되어 왔습니다. 이는 언어의 인과적 구조를 반영하지만, 두 가지 주요 한계와 기회를 남깁니다.

단방향성 한계: 모델이 결론 (Future context) 을 기반으로 전제 (Past) 를 추론하는 능력, 즉 '역방향 추론'이 체계적으로 탐구되지 않았습니다.
역전 저주 (Reversal Curse): "A 는 B 다"를 학습한 모델이 "B 는 A 다"를 추론하지 못하는 현상이 발생합니다.
할루시네이션 검증의 부재: 생성된 답변의 정확성을 검증하기 위해, 생성된 내용 (Response) 이 입력 (Prompt) 을 얼마나 잘 재구성하는지 역방향으로 확인하는 메커니즘이 부재했습니다.

이 연구는 **오직 오른쪽에서 왼쪽 (Right-to-Left, R2L)**으로만 훈련된 순수 역방향 언어 모델 (Reverse Language Model, RLM) 의 가능성을 탐구하고, 이를 통해 기존 모델과 다른 추론 패턴을 발견하고 검증 메커니즘을 강화하는 것을 목표로 합니다.

2. 방법론 (Methodology)

가. LEDOM (Reverse Language Model) 훈련

모델 아키텍처: 기존 Decoder-only Transformer 아키텍처를 그대로 사용하되, **토큰 순서를 반전 (Reversed)**시켜 훈련합니다. 즉, $P(x_t | x_{t+1}, \dots, x_T)$ 를 예측하도록 학습합니다.
데이터 및 규모: 4350 억 토큰 (435B tokens) 으로 훈련된 2B 및 7B 파라미터 규모의 오픈소스 모델을 공개했습니다.
- 데이터 구성: 일반 텍스트 (DCLM), 수학/논리 (MAP-Neo), 코드 (MAP-Neo) 를 포함하여 균형 잡힌 훈련을 수행했습니다.
동적 특성: 역방향 훈련은 자연어의 인과적 구조 (왼쪽 문맥이 더 정보적임) 와 반대이므로, Forward 모델 (FLM) 에 비해 수렴 속도가 느리고 최종 손실 (Loss) 이 높게 나타납니다. 이는 모델이 덜 구조화된 정보 (미래 문맥) 로부터 과거를 추론해야 하기 때문입니다.

나. Reverse Reward (역방향 보상) 및 검증 프레임워크

노이즈 채널 이중성 (Noisy Channel Duality): 베이즈 정리를 활용하여 Forward Likelihood $P(y|x)$ $P (y ∣ x)$ 와 Reverse Posterior $P(x|y)$ $P (x ∣ y)$ 를 결합합니다.
- 수식: $R(x, y) = P_{FLM}(y|x)^{1-\lambda} \cdot P_{RLM}(x|y)^\lambda$
- 이는 생성된 답변 $y$ 가 입력 $x$ 를 얼마나 잘 재구성하는지 (Reverse Posterior) 를 검증 신호로 활용합니다.
할루시네이션 페널티: 잘못된 추론 (할루시네이션) 은 원래의 전제 (Prompt) 를 역방향으로 재구성할 때 실패하거나 확률이 낮아지는 경향이 있습니다. 이를 통해 Forward 모델이 높은 확률로 생성했더라도 논리적으로 결함이 있는 답변을 걸러낼 수 있습니다.
추론 전략:
1. Best-of-N Reranking: Forward 모델이 생성한 N 개의 후보를 Reverse 모델의 Posterior 점수로 재순위화합니다.
2. Step-wise Beam Search: 추론 과정의 각 단계 (Step) 에서 Reverse 점수를 계산하여 오류가 전파되기 전에 잘못된 경로를 가지치기 (Pruning) 합니다.

3. 주요 기여 (Key Contributions)

LEDOM 모델 공개: 대규모 (2B/7B) 순수 역방향 자기회귀 언어 모델을 최초로 체계적으로 훈련하고 분석했습니다.
고유한 추론 능력 발견:
- 귀납적 추론 (Abductive Inference): 결론을 기반으로 타당한 전제 (배경, 동기) 를 생성하는 능력이 뛰어납니다.
- 질문 생성 (Question Synthesis): 정답과 추론 과정을 기반으로 자연스러운 질문을 생성합니다.
- 역전 저주 해결: "A 는 B 다"에서 "B 는 A 다"를 자연스럽게 추론하며, Forward 모델이 실패하는 역방향 관계를 해결합니다.
- 의미 보존: 역방향 훈련에도 불구하고 감정 분석, 정의 추론 등 의미 이해 태스크에서는 Forward 모델과 유사한 성능을 보입니다.
Reverse Reward 제안 및 증명:
- Forward Likelihood 와 Reverse Posterior 를 결합한 검증 프레임워크를 제안했습니다.
- Proposition 1: 역방향 재구성이 저하되는 (Posterior degradation) 할루시네이션된 추론 체인은 역방향 점수에서 페널티를 받아 하위 순위로 밀린다는 것을 수학적으로 증명했습니다.

4. 실험 결과 (Results)

가. 벤치마크 성능 (LEDOM vs FLM)

상호 보완적 오류: LEDOM 과 FLM 은 서로 다른 태스크에서 강점과 약점을 보입니다.
- 강점: 의미 이해 (BoolQ, OpenBookQA), 역방향 추론 태스크.
- 약점: 코드 생성 (HumanEval), 사실적 회상 (TriviaQA) 등 순차적 인과 관계가 필수적인 태스크에서는 Forward 모델보다 성능이 낮습니다.
결론: 두 모델은 서로 다른 오류 패턴을 보이므로, 결합했을 때 시너지 효과가 기대됩니다.

나. 수학 추론 검증 (Reverse Reward 적용)

성능 향상: DeepSeekMath, OpenMath2, QwenMath 등 강력한 베이스 모델에 Reverse Reward 를 적용한 결과, 수학 추론 태스크에서 일관된 성능 향상을 보였습니다.
- AIME 2024: 최대 6.6% 향상.
- AMC 2023: 최대 15% 향상.
할루시네이션 감소: Forward 모델이 생성한 최상위 후보가 문제의 제약 조건을 무시하는 경우, Reverse Reward 는 이를 재구성 실패로 감지하여 점수를 낮추고 올바른 답변을 상위로 끌어올렸습니다.
그레인룰리티 (Granularity): 복잡한 문제에서는 단계별 (Step-wise) 검증이, 긴 추론 체인에서는 전체 응답 레벨 (Response-level) 재순위화가 더 효과적임을 확인했습니다.

5. 의의 및 한계 (Significance & Limitations)

의의

새로운 언어 모델 패러다임: 언어 모델링이 반드시 L2R 일 필요는 없으며, R2L 이라는 대안적 분해가 고유한 추론 능력 (귀납적 추론, 역방향 검증) 을 창출함을 입증했습니다.
무감독 검증 (Unsupervised Verification): 추가적인 라벨링 데이터 없이 Reverse 모델의 Posterior 를 활용하여 Forward 모델의 할루시네이션을 검증하는 효율적인 방법을 제시했습니다.
안전성 시사점: 역방향 모델은 기존 Forward 모델의 안전 필터를 우회할 수 있는 위험이 있음을 발견하여, 방향성 인식 (Direction-aware) 안전 정렬의 필요성을 제기했습니다.

한계 및 향후 과제

태스크 비대칭성: 순차적 코드 생성이나 의사결정 등 Forward 인과성이 강한 태스크에서는 역방향 모델의 성능이 제한적입니다.
확장성: 현재 2B/7B 규모로 훈련되었으며, 더 큰 규모에서 역방향 검증 신호가 어떻게 변화할지 추가 연구가 필요합니다.
안전성: 역방향 생성이 유해한 콘텐츠를 생성할 수 있어, 배포 시 방향성별 콘텐츠 필터링이 필수적입니다.

요약

이 논문은 LEDOM을 통해 역방향 언어 모델링의 가능성을 입증하고, 이를 Reverse Reward라는 검증 메커니즘으로 연결하여 수학 추론 등 복잡한 태스크에서 Forward 모델의 성능을 획기적으로 개선하는 방법을 제시했습니다. 이는 언어 모델의 방향성 비대칭성을 자원으로 활용하여 더 강력하고 신뢰할 수 있는 AI 시스템을 구축할 수 있음을 보여주는 중요한 연구입니다.