TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

이 논문은 복잡한 질의를 관계 삼중체로 분해하고 경량화된 계층 분류법을 활용하여 단계별 증거 선택을 수행함으로써, 기존 RAG 시스템의 구조적 한계를 극복하고 다단계 추론 정확도를 크게 향상시킨 'TaSR-RAG' 프레임워크를 제안합니다.

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei Han

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 비유: "어리석은 사서 vs. 전문 탐정"

기존의 인공지능 (RAG) 은 도서관에서 책을 찾아주는 **'어리석은 사서'**와 같습니다.

  • 문제점: "마스 로버에 사용된 데이터베이스를 만든 회사는 어디야?"라고 물으면, 사서는 '마스', '데이터베이스', '회사'라는 단어가 포함된 책들을 무작정 쑤셔 넣습니다. 책이 너무 많고 내용이 뒤죽박죽이라, 인공지능은 "아마도 A 회사겠지?"라고 막연하게 추측하다가 엉뚱한 답을 내놓거나, '마리'라는 이름의 회사와 '마스'를 혼동하는 실수를 저지릅니다.

이제 TaSR-RAG는 **'전문 탐정'**이 됩니다.

  • 해결책: 이 탐정은 단순히 키워드를 찾는 게 아니라, 질문을 단계별로 쪼개고, 각 단계마다 **정확한 분류표 (타이포니)**를 이용해 정보를 걸러냅니다.

🚀 TaSR-RAG 가 어떻게 작동할까요? (3 단계 과정)

이 시스템은 질문을 해결할 때 세 가지 핵심 전략을 사용합니다.

1. 질문을 레고 블록처럼 쪼개기 (분해)

복잡한 질문은 한 번에 해결하기 어렵습니다. 탐정은 질문을 작은 조각으로 나눕니다.

  • 원래 질문: "마스 로버의 과학 활동 계획기에 사용된 오픈소스 관계형 데이터베이스를 처음 개발한 회사는 어디인가?"
  • 탐정의 접근:
    1. (1 단계) "과학 활동 계획기가 어떤 데이터베이스를 쓰지?" → 답: MySQL
    2. (2 단계) "그 MySQL어떤 회사가 만들었지?" → 답: MySQL AB
      이렇게 중간 답을 하나씩 찾아내며 다음 단계로 넘어갑니다.

2. 정보에 '라벨'을 붙이기 (분류 체계)

단순히 텍스트만 비교하면 헷갈립니다. 그래서 모든 정보에 분류 라벨을 붙입니다.

  • 예시: "MySQL"이라는 단어만 보면 그냥 이름일 뿐이지만, TaSR-RAG 는 이걸 **"소프트웨어/데이터베이스"**라는 라벨을 붙입니다. "MySQL AB"는 **"회사"**라는 라벨을 붙입니다.
  • 효과: 질문에서 "데이터베이스"를 찾고 있는데, 문서에 "회사" 정보가 섞여 있어도 라벨이 다르니 걸러냅니다. 마치 색깔이 다른 레고 블록을 섞지 않고, 파란색만 모으는 것과 같습니다.

3. 두 가지 눈으로 확인하기 (하이브리드 매칭)

탐정은 정보를 찾을 때 두 가지 눈을 사용합니다.

  • 눈 1 (의미): "이 문장이 질문과 뜻이 비슷해?" (예: "MySQL 을 사용했다" vs "MySQL 이 쓰임")
  • 눈 2 (구조): "이 정보의 라벨이 질문과 딱 맞아떨어져?" (예: 질문이 '소프트웨어'를 묻는데, 문서의 '회사' 정보를 골라내면 X)
    이 두 눈을 동시에 사용해서 가장 정확한 정보만 골라냅니다.

💡 왜 이것이 중요한가요?

기존 시스템은 한 번에 모든 정보를 보고 답을 내려고 하다가, 정보가 너무 많아서 헷갈리거나 (환각 현상), 중간에 실수가 생기면 그 실수가 다음 단계로 퍼져 나가는 문제가 있었습니다.

하지만 TaSR-RAG 는:

  1. 단계별로 해결: 한 번에 한 걸음씩 나아가므로 실수가 쌓이지 않습니다.
  2. 명확한 연결: "아, 방금 찾은 'MySQL'이 바로 다음 단계의 '회사'를 찾는 열쇠구나!"라고 **연결고리 (바인딩)**를 명확히 합니다.
  3. 정확한 정보: 불필요한 잡음 (관련 없는 정보) 을 라벨로 걸러내므로, 인공지능이 더 집중해서 답을 찾을 수 있습니다.

🏆 결과: 얼마나 잘할까요?

실험 결과, 이 시스템은 기존 최고의 인공지능 모델들보다 최대 14% 더 높은 정확도를 보였습니다. 특히 여러 단계를 거쳐야 답을 찾을 수 있는 복잡한 질문 (다단계 추론) 에서 그 차이가 극명했습니다.

📝 한 줄 요약

"TaSR-RAG 는 복잡한 질문에 답할 때, 막연히 정보를 뒤적이는 대신 질문을 작은 조각으로 나누고, 각 정보에 정확한 라벨을 붙여 순서대로 찾아내는 '똑똑한 탐정' 같은 인공지능입니다."