LEDOM: Reverse Language Model

이 논문은 오른쪽에서 왼쪽으로 학습된 역방향 언어 모델 LEDOM 을 제안하여 추론 패턴의 고유한 특성을 규명하고, 역방향 사후확률을 활용한 'Reverse Reward' 기법을 통해 기존 모델의 환각을 억제하고 수학 추론 성능을 크게 향상시켰음을 보여줍니다.

Xunjian Yin, Sitao Cheng, Yuxi Xie, Xinyu Hu, Li Lin, Xinyi Wang, Liangming Pan, William Yang Wang, Xiaojun Wan

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"LEDOM"**이라는 새로운 인공지능 모델을 소개합니다. 기존의 AI 가 어떻게 작동하는지, 그리고 이 새로운 모델이 왜 특별한지 쉽게 설명해 드릴게요.

1. 기존 AI 는 '앞에서 뒤로' 읽습니다 (Forward Model)

지금까지 우리가 알고 있는 대부분의 AI(예: 챗봇, 번역기) 는 책을 처음부터 끝까지 읽는 방식으로 학습합니다.

  • 비유: 마치 독서 모임에서 한 사람이 "오늘 아침에 커피를 마셨어요."라고 말하면, 다음 사람은 "그럼 배고프지 않았나요?"라고 이어가는 것과 같습니다.
  • 원리: 앞의 단어를 보고 뒤의 단어를 예측합니다. (Left-to-Right)
  • 한계: 만약 "그는 커피를 마셨다"라고만 말하고 "왜?"라고 물으면, AI 는 앞의 맥락이 없기 때문에 이유를 추론하기 어렵습니다.

2. LEDOM 은 '뒤에서 앞으로' 읽습니다 (Reverse Model)

이 논문에서 만든 LEDOM은 정반대입니다. 책을 마지막 페이지부터 첫 페이지까지 거꾸로 읽는 방식으로 학습했습니다.

  • 비유: 마치 수사관이 범죄 현장 (결과) 을 보고 범행 동기와 과정을 추리하는 것과 같습니다.
    • 결과: "미키는 직장을 그만두고 사업을 시작했다."
    • LEDOM 의 추리: "미키는 학교에서 열심히 공부했고, 가족 중 대학을 간 첫 번째 사람이었다. 하지만 그 직장은 그가 평생 하고 싶던 일이 아니었다."
  • 특징: 결론 (결과) 을 먼저 보고, 그 결론에 도달하게 된 **이유 (전제)**를 만들어냅니다.

3. LEDOM 의 특별한 능력들

이 '거꾸로 읽기' 훈련을 통해 LEDOM 은 기존 AI 가 잘 못하던 일들을 잘하게 되었습니다.

  • 추론 능력 (Abductive Inference): "왜 이런 결과가 나왔을까?"를 자연스럽게 설명합니다.
  • 질문 만들기: 정답을 보고 "이 정답을 얻기 위한 질문은 뭘까?"를 만들어냅니다. (예: 정답이 "21 개"라면, "하루에 3 개씩 일주일 동안 먹으면 총 몇 개?"라는 질문을 만듦)
  • 역설의 해결: 기존 AI 는 "A 는 B 다"라고 배웠을 때 "B 는 A 다"라고 추론하지 못하는 경우가 많습니다 (이를 '역전 저주'라고 부릅니다). 하지만 LEDOM 은 거꾸로 보니까 "B 는 A 다"라는 관계를 자연스럽게 이해합니다.

4. 두 AI 를 합치면 '초능력'이 생깁니다 (Reverse Reward)

논문에서 가장 흥미로운 부분은 기존 AI(앞에서 뒤로) 와 LEDOM(뒤에서 앞으로) 을 함께 쓰는 방법입니다.

  • 상황: 기존 AI 가 수학 문제를 풀어서 답을 냈다고 가정해 봅시다.
  • 문제: AI 가 엉뚱한 논리로 엉터리 답을 낼 수도 있습니다 (할루시네이션).
  • 해결책 (Reverse Reward):
    1. 기존 AI 가 답을 냅니다.
    2. LEDOM 이 그 답을 보고 원래 문제 (질문) 를 다시 만들어보게 합니다.
    3. 비유: 요리사가 만든 요리를 보고, "이 요리를 만들기 위해 어떤 재료가 필요했지?"라고 되돌려 물어보는 것입니다.
    4. 만약 요리사가 엉터리 재료를 썼다면, LEDOM 이 원래 레시피 (문제) 를 다시 만들 때 엉망이 될 것입니다.
    5. 이렇게 **뒤에서 앞으로 다시 만들어보는 과정 (재구성)**이 잘 안 되면, 그 답은 틀렸다고 판단하고 점수를 깎아줍니다.

5. 실제 효과

이 방법을 수학 문제 풀이에 적용했을 때, 기존 AI 들의 정답률이 최대 15% 까지 향상되었습니다. 특히 어려운 수학 경시대회 문제에서 엉뚱한 추론을 하는 경우를 잡아내어 정답을 찾게 해주는 '진단 도구' 역할을 했습니다.

요약

  • 기존 AI: 앞의 이야기를 듣고 뒤를 이어 말함 (스토리텔러).
  • LEDOM: 뒤의 결론을 보고 앞의 이유를 추리함 (수사관).
  • 함께 쓰면: 수사관이 스토리텔러의 이야기를 검증하여, 거짓말이나 엉뚱한 추리를 찾아내고 더 정확한 답을 도출함.

이 연구는 AI 가 단순히 글을 이어 쓰는 것뿐만 아니라, 결과를 보고 원인을 추론하는 능력을 키우는 것이 얼마나 중요한지, 그리고 두 가지 방향을 함께 쓸 때 더 똑똑해질 수 있음을 보여줍니다.