Each language version is independently generated for its own context, not a direct translation.

📚 LIT-RAGBench: AI 의 '문서 읽기 능력'을 시험하는 새로운 시험지

이 논문은 최근 핫한 **거대 언어 모델 **(LLM, 예: 챗지피티)이 외부 문서를 찾아서 답변하는 **'검색 증강 생성 **(RAG) 기술이 실제로 얼마나 잘 작동하는지 측정하기 위해 만든 새로운 **시험지 **(벤치마크)에 대한 이야기입니다.

기존 시험지들은 AI 가 단순히 "문서를 잘 찾았나?"만 보거나, "단순한 질문만 잘 답했나?"만 봤는데, 이 새로운 시험지는 실제 현실에서 AI 가 겪을 수 있는 복잡한 상황을 모두 담아냈습니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 배경: AI 는 왜 '문서 읽기'가 필요할까요?

AI 는 방대한 지식을 가지고 있지만, 최신 뉴스나 회사의 내부 문서처럼 AI 가 처음부터 알지 못하는 정보는 모릅니다. 그래서 AI 는 **비서 **(Retriever)에게 "이 주제에 대한 문서 좀 찾아와"라고 시키고, 찾아온 문서를 읽고 **답변 **(Generator)을 작성합니다.

하지만 문제는, 비서가 찾아온 문서가 너무 길거나, 여러 개가 섞여있거나, **표 **(Table)로 되어 있거나, 정답이 아예 없을 때 AI 가 어떻게 반응하느냐입니다.

2. LIT-RAGBench: 5 가지 영역의 '실전 모의고사'

이 연구팀은 AI 의 능력을 5 가지 주요 영역으로 나누어 시험했습니다. 마치 수능이나 면접처럼 다양한 상황을 가정합니다.

① 통합 (Integration): "여러 권의 책을 한 번에 읽기"

상황: 비서가 A, B, C 세 회사의 가격표를 각각 가져왔습니다.
시험: "세 회사 중 가장 싼 곳은 어디야?"라고 물었을 때, AI 는 세 문서를 모두 읽고 비교해서 답해야 합니다.
난이도: 한 문서만 보면 답이 안 나옵니다. 여러 출처를 합쳐야 합니다.

② 추론 (Reasoning): "숨은 뜻을 읽어내기"

상황: "2024 년에 어떤 프로젝트가 선정되었나요?"라고 물었습니다.
시험: 문서에는 "2024 년 7 월에 선정됨"이라고만 적혀 있고, "프로젝트명"은 다른 문서에 있습니다. AI 는 두 문서를 연결해서 "A 프로젝트가 선정되었다"고 추론해야 합니다.
난이도: 글자 그대로 읽는 게 아니라, 정보를 연결하는 논리력이 필요합니다.

③ 논리 (Logic): "말장난과 숫자 장난을 피하기"

상황: 문서에는 "1 만 원"이라고 적혀 있는데, 질문은 "10,000 원"이라고 물었습니다.
시험: AI 는 "아, 이건 같은 말이구나!"라고 알아차려야 합니다. 또한 "20 세 이상 40 세 미만"이라는 조건에 35 세가 들어맞는지 수학적/논리적 판단을 해야 합니다.
난이도: 표현은 다르지만 뜻이 같은 것을 알아차리는 언어 감각과 숫자 감각이 필요합니다.

④ 표 이해 (Table): "복잡한 표를 해독하기"

상황: 문서에 HTML이나 CSV 형식의 복잡한 표가 있습니다. 행과 열이 섞여있거나, 셀이 합쳐져 있습니다.
시험: "이 표에서 2024 년의 매출은 얼마야?"라고 물었을 때, 표의 구조를 이해하고 정확한 숫자를 찾아야 합니다.
난이도: AI 가 표를 읽는 것은 인간이 복잡한 엑셀 파일을 보는 것만큼 어렵습니다.

⑤ 거절 (Abstention): "모르면 모른다고 하기"

상황: 비서가 찾아온 문서에 정답이 아예 없습니다.
시험: AI 는 **대충 지어내지 **(할루시네이션)하고, "문서에 정보가 없어서 답할 수 없습니다"라고 정직하게 거절해야 합니다.
난이도: AI 는 보통 "무조건 답을 찾아야 한다"는 강박이 있어, 없는 정보를 만들어내는 경향이 있습니다. 이를 얼마나 잘 참을지 봅니다.

3. 시험 결과: AI 들은 얼마나 잘했을까요?

연구팀은 최신 AI 모델 10 개 이상을 이 시험지에 풀어보게 했습니다. 결과는 충격적이었습니다.

**전체 합격점 **(90%) 어떤 AI 도 90% 를 넘지 못했습니다. (최고 점수는 약 87% 수준)
약점 발견:
- 작은 모델: 복잡한 표를 보거나 여러 문서를 연결하는 데 매우 취약했습니다.
- **큰 모델 **(고성능) 표를 해석하거나, 정보가 없을 때 "모른다"고 말하는 데는 조금 더 좋았지만, 여전히 실수가 많았습니다.
- 특이한 현상: 어떤 모델은 정보가 없는데도 "모르겠다"고 하기보다 무작정 지어내는 경향이 있었고, 어떤 모델은 정답이 있는데도 너무 조심스러워서 "모르겠다"고 하는 **과도한 거절 **(Over-Abstention) 현상이 나타났습니다.

4. 왜 이 연구가 중요한가요?

이 시험지는 AI 개발자들에게 어떤 AI 를 선택해야 할지 알려주는 나침반 역할을 합니다.

실전 대비: "우리 회사는 표가 많은 재무 보고서를 다뤄야 하니까, 표 해석 능력이 좋은 모델을 골라야겠다"거나, "의료 분야라 실수가 없어야 하니까, 모르면 거절하는 능력이 뛰어난 모델을 골라야겠다"는 식으로 목적에 맞는 AI를 고를 수 있게 됩니다.
향후 발전: AI 가 단순히 "답을 잘 짓는 것"을 넘어, 정확한 근거를 바탕으로 논리적으로 생각하고, 모르는 것은 인정하는 진정한 '지식인'으로 성장하는 데 필요한 기준을 제시합니다.

🎯 한 줄 요약

"이 논문은 AI 가 복잡한 문서 속에서 정답을 찾아내고, 표를 읽고, 모르는 것은 정직하게 말하는 능력을 종합적으로 평가하는 새로운 '실전 시험지'를 만들었고, 아직 AI 들은 이 시험에서 100 점 만점을 받지 못했다는 사실을 발견했습니다."

이제 AI 를 쓸 때는 "무조건 똑똑한 AI"가 아니라, **"우리 업무에 필요한 특정 능력 **(표 읽기, 추론, 거절 등)을 골라야 한다는 교훈을 남겼습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

대규모 언어 모델 (LLM) 을 기반으로 한 **검색 증강 생성 (RAG)**은 외부 문서에서 정보를 검색하여 답변을 생성하는 프레임워크입니다. 실제 응용 환경에서는 생성기 (Generator) 가 다음과 같은 복잡한 능력을 동시에 요구받습니다:

긴 문맥에서의 증거 통합
다단계 추론 (Multi-hop reasoning) 수행
표 (Table) 데이터 해석
증거가 부족할 때 답변을 유보 (Abstention) 하는 능력

그러나 기존 벤치마크들은 이러한 다양한 능력을 단일하게 평가하거나, 실제 RAG 시나리오에서 요구되는 복합적인 능력의 조합을 체계적으로 평가하지 못한다는 한계가 있었습니다. 또한, 검색 품질과 생성 능력을 분리하여 평가하는 체계적인 방법이 부족했습니다.

2. 방법론 (Methodology)

이 연구는 실제 RAG 배포 환경의 실패 사례를 기반으로 한 LIT-RAGBench를 제안합니다.

2.1. 평가 프레임워크 (5 가지 핵심 카테고리)

생성기의 능력을 5 가지 주요 카테고리로 정의하고, 각 카테고리를 구체적인 평가 요소 (Aspects) 로 세분화했습니다.

Integration (통합): 여러 문서 (2~3 개) 에 흩어진 정보를 추출하고 통합하는 능력.
Reasoning (추론): 명시되지 않은 결론을 도출하는 능력.
- Multi-hop: 여러 문서를 연결하여 추론.
- Numerical Calculation: 공식 없이 상식과 비즈니스 지식을 활용한 수치 계산.
Logic (논리): 질문과 검색된 문맥 간의 어휘적/의미적 불일치를 해결하는 능력.
- Synonym: 동의어 및 약어 해석.
- Numerical Inclusion: 수치 조건 (예: "20 세 이상 40 세 미만") 의 경계 포함 여부 판단.
- Conceptual Inclusion: 계층적 관계 (예: "노이즈 캔슬링 이어폰"은 "전자기기"에 해당함) 인식.
Table (표): HTML, Markdown, CSV 등 다양한 형식의 표 데이터를 이해하고 정보를 추출하는 능력. (병합 셀, 헤더 누락 등 복잡한 구조 포함)
Abstention (유보): 신뢰할 수 있는 증거가 없을 때 답변을 하지 않는 능력.
- Insufficient Evidence: 정보가 부족할 때.
- Contradictory Evidence: 정보가 상충될 때.
- Incomplete Chunk: 검색된 청크가 의미적으로 끊겨 있을 때.

2.2. 데이터셋 구성

구성: 114 개의 인간이 제작한 일본어 질문과 이를 기계 번역 및 인간 검수를 통해 생성된 영어 버전으로 구성.
특징: 실제 LLM 의 사전 지식을 우회하기 위해 **가상의 엔티티 (회사명, 제품명 등)**와 시나리오를 사용.
구조: 각 질문은 관련 문서 집합 ( $C^+$ ) 과 관련 없는 문서 집합 ( $C^-$ ) 을 포함하며, 입력 시 문서 순서를 무작위화하여 위치 편향 (Position Bias) 을 제거했습니다.
조합: 단일 카테고리 또는 서로 다른 두 카테고리의 조합 (예: 추론 + 표 해석) 으로 문제를 설계하여 복합 능력을 평가.

2.3. 평가 방법

LLM-as-a-Judge: 생성된 답변과 정답의 의미적 일관성을 평가하기 위해 GPT-4.1 을 판사로 사용.
대상 모델: API 기반 모델 (GPT-5, o3, Claude-Sonnet-4, Gemini-2.5 등) 과 오픈 가중치 모델 (Llama-3, Qwen3, Gemma-3 등) 을 포함.

3. 주요 기여 (Key Contributions)

LIT-RAGBench 벤치마크 제안: RAG 생성기의 능력을 통합, 추론, 논리, 표, 유보의 5 가지 카테고리로 체계화하고, 실제 환경에서 발생하는 복합적인 능력을 평가할 수 있는 최초의 벤치마크 중 하나를 구축했습니다.
실제 시나리오 기반 데이터셋: 가상의 데이터를 사용하여 모델이 사전 지식에 의존하지 않도록 설계되었으며, 표 구조나 논리적 모순 등 실제 RAG 시스템에서 자주 발생하는 실패 패턴을 포착합니다.
종합적 성능 분석: 단일 능력뿐만 아니라 여러 능력이 결합된 상황에서의 모델 성능을 정량화하고, 모델별 강점과 약점을 카테고리별로 상세히 분석했습니다.

4. 실험 결과 (Results)

전체 정확도: 평가된 모든 모델 (API 기반 및 오픈 소스 포함) 이 90% 이상의 전체 정확도를 달성하지 못했습니다. 가장 높은 점수를 기록한 GPT-5 는 약 87.2% (일어/영어 모두) 를 기록했습니다.
카테고리별 성능 차이:
- 추론 (Reasoning): o3 모델이 다단계 추론 및 수치 계산에서 탁월한 성능을 보였으나, 다른 모델들은 중간 단계 추론이나 계산 오류를 범했습니다.
- 표 (Table): 병합 셀이 포함된 복잡한 표나 긴 표가 청크로 나뉘어 입력될 경우, 대부분의 모델이 정보 추출에 실패했습니다.
- 유보 (Abstention): Claude-Sonnet-4 는 증거가 부족할 때 답변을 유보하는 능력이 가장 뛰어났으나, 답변 가능한 경우에도 과도하게 유보하는 (Over-Abstention) 경향을 보였습니다.
모델 크기 영향: 파라미터가 작은 모델 (예: Llama-3.1-8B) 은 추론 및 통합 능력에서 현저히 낮은 성능을 보였으며, 종종 답변을 유보하는 경향이 강했습니다.

5. 의의 및 결론 (Significance & Conclusion)

모델 선정 지표: LIT-RAGBench 는 실제 RAG 배포 시 모델의 강점과 약점을 측정하여 적합한 모델을 선정하는 데 유용한 지표로 작용합니다.
RAG 특화 모델 개발: 벤치마크를 통해 발견된 약점 (예: 표 해석, 논리적 일관성, 과도한 유보 등) 을 기반으로 RAG 에 특화된 모델 개발 및 프롬프트 최적화 방향을 제시합니다.
과도한 유보 (Over-Abstention) 문제: 안전성 정렬 (Safety Alignment) 이 유용성 (Usefulness) 과 트레이드오프 관계에 있을 수 있음을 보여주며, 적절한 유보와 정확한 답변 사이의 균형을 맞추는 것이 향후 중요한 과제임을 강조합니다.

이 연구는 RAG 시스템의 평가가 단순한 정확도 측정을 넘어, 복합적인 인지 능력과 상황 판단 능력을 포괄적으로 평가해야 함을 입증하였으며, 향후 더 신뢰할 수 있는 RAG 시스템 구축을 위한 중요한 기준을 마련했습니다.

LIT-RAGBench: Benchmarking Generator Capabilities of Large Language Models in Retrieval-Augmented Generation