Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment

이 논문은 긴 문맥에서의 주의력 희석과 추론 환각 문제를 해결하기 위해 외부 증거의 활용을 점진적으로 최적화하는 3 단계 선호도 정렬 프레임워크인 Hit-RAG 를 제안하고, 이를 통해 대규모 모델보다 우수한 성능을 입증합니다.

Junming Liu, Yuqi Li, Shiping Wen, Zhigang Zeng, Tingwen Huang

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

히트-RAG (Hit-RAG): 거대한 도서관에서 정답을 찾는 '명탐정' 훈련법

이 논문은 인공지능 (AI) 이 방대한 양의 정보를 읽을 때 겪는 고민을 해결한 새로운 방법을 소개합니다. 마치 거대한 도서관에서 책 한 권을 찾아내야 하는 상황을 상상해 보세요.

📚 문제: "책은 많지만, 정답은 어디?"

기존의 AI 는 외부 지식 (Retrieval-Augmented Generation, RAG) 을 활용하려고 할 때 두 가지 큰 실수를 저지릅니다.

  1. 정보 과부하 (Attention Dilution): 도서관에 책이 100 권 쌓여 있는데, AI 는 중요한 한 권을 찾지 못하고 "아무거나" 읽다가 혼란에 빠집니다.
  2. 망상 (Hallucination): 중요한 증거가 있는데도, AI 는 자신의 기억 (내부 지식) 에만 의존하거나, 잘못된 책 (노이즈) 을 보고 엉뚱한 결론을 내립니다.

이를 '명탐정'이 사건 현장에 온 수많은 목격자 중 진범을 찾아내야 하는 상황에 비유할 수 있습니다. 기존 AI 는 목격자 100 명 중 99 명이 거짓말을 하거나 헛소리를 해도, 그중 한 명을 믿거나 아예 무시하고 제멋대로 추리해 버립니다.


🚀 해결책: 히트-RAG (Hit-RAG)

저자들은 이 문제를 해결하기 위해 3 단계 훈련 과정을 고안했습니다. 마치 명탐정을 훈련시키는 과정과 같습니다.

1 단계: 기초 체력 다지기 (Supervised Fine-Tuning, SFT)

  • 비유: "눈을 뜨고 책을 읽어라!"
  • 내용: AI 에게 중요한 단서가 섞여 있는 긴 문서를 보여주고, 정답을 가르쳐 줍니다. 이때 AI 가 "내 기억으로 추측하지 말고, 정말 눈앞에 있는 문서를 보고 답을 찾아야 한다"는 것을 배우게 합니다.
  • 효과: AI 가 긴 글을 읽을 때 중요한 부분을 놓치지 않고, 외부 정보를 신뢰하는 태도를 기릅니다.

2 단계: 거짓말쟁이 구별하기 (Discriminative Preference Alignment, DPO)

  • 비유: "가짜 목격자는 무시하고, 진짜 목격자를 믿어라!"
  • 내용: AI 가 "정답을 맞힌 경우"와 "가짜 정보에 속아 틀린 경우"를 비교하며 학습시킵니다.
    • "이 문서는 중요하지 않으니 무시해."
    • "이 문서는 거짓말이 섞여 있으니 믿지 마."
  • 효과: AI 가 헛소리를 하거나, 관련 없는 정보에 흔들리지 않고 비판적인 사고를 하도록 훈련합니다.

3 단계: 논리 정합성 강화 (Group-Relative Policy Optimization, GRPO)

  • 비유: "한 번에 여러 가지 추리를 해보고, 가장 논리적인 결론을 골라라."
  • 내용: AI 에게 같은 질문을 여러 번 물어보고, 여러 가지 답을 만들어보게 합니다. 그중에서 논리적으로 가장 일관된 답을 선택해 보상을 줍니다.
    • 예: "A 라는 증거를 보고 B 라는 결론을 내렸는데, C 라는 증거와 모순되네? 다시 생각해 봐."
  • 효과: AI 가 중간에 논리가 끊기거나 (Reasoning Collapse), 엉뚱한 결론으로 끝나는 것을 방지합니다.

🏆 결과: 작은 AI 가 거인보다 뛰어납니다!

이 훈련을 받은 AI (히트-RAG) 는 놀라운 성과를 냈습니다.

  • 작은 AI 가 거인을 이기다: 파라미터 (두뇌 크기) 가 훨씬 작은 모델 (예: 8B) 이 히트-RAG 를 적용하면, 70B(거대 모델) 나 최신 유료 AI 보다 더 높은 점수를 받았습니다.
  • 다양한 시험에서 승리: 텍스트 기반 퀴즈, 문서 이해, 심지어 그림과 글이 섞인 복잡한 문제 (멀티모달) 에서도 인간 전문가 수준을 넘어서는 성적을 거두었습니다.
  • 핵심 통찰: 단순히 AI 의 크기를 키우는 것 (파라미터 확장) 보다, 어떻게 정보를 잘 정리하고 추리하느냐 (훈련 방식) 가 더 중요하다는 것을 증명했습니다.

💡 한 줄 요약

"히트-RAG 는 AI 에게 '방대한 정보 속에서 진실을 찾아내고, 거짓말을 구별하며, 논리적으로 결론을 내는' 명탐정 훈련을 시켜, 작은 AI 가 거대 AI 보다 똑똑하게 만들 수 있는 방법을 제시합니다."

이 기술은 앞으로 AI 가 복잡한 문서, 긴 보고서, 혹은 방대한 데이터베이스를 다룰 때 훨씬 더 신뢰할 수 있는 도구가 될 것입니다.