Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

Each language version is independently generated for its own context, not a direct translation.

📚 배경: 거대한 도서관과 혼란스러운 독서

우리는 컴퓨터 과학 분야의 논문이 쏟아지는 시대에 살고 있습니다. 이 모든 논문은 **'지식 그래프 (Knowledge Graph)'**라는 거대한 도서관에 정리되어 있습니다. 하지만 기존 도서관은 다음과 같은 문제가 있었습니다.

표면적인 정보만 담고 있음: 책의 제목이나 저자 이름만 기록하고, 책 속에 있는 '중요한 문장'이나 '논리의 흐름'은 놓치고 있었습니다. 마치 책장 번호만 적어두고 내용은 모른 채 있는 것과 같습니다.
질문하면 헷갈림 (할루시네이션): 최신 인공지능 (LLM) 에게 질문하면, 때로는 지식을 과장하거나 엉뚱한 사실을 지어내는 '할루시네이션'이라는 실수를 합니다.

💡 해결책: 두 가지 혁신적인 도구

이 연구팀은 이 문제를 해결하기 위해 두 가지 새로운 도구를 개발했습니다.

1. DDM (Deep Document Model): "책의 해부학자"

기존 도서관이 책의 '표지'만 봤다면, DDM은 책 안을 아주 정교하게 해부합니다.

비유: 책 한 권을 단순히 '문서'로 보지 않고, 목차 → 장 (Chapter) → 단락 (Paragraph) → 문장 (Sentence) 순서로 쪼개서 분석합니다.
효과: "이 논문의 3 장 2 단락에서 저자가 어떤 실험 방법을 썼는지"처럼 아주 구체적이고 미세한 부분까지 찾아낼 수 있게 됩니다.

2. KGQP (KG-enhanced Query Processing): "정교한 나침반"

인공지능이 도서관을 검색할 때, 막연하게 "이거 찾아줘"라고 외치는 대신, **정확한 지도 (지식 그래프)**를 보여주어 길을 안내합니다.

비유: 인공지능이 길을 잃었을 때, "정확한 주소 (데이터)"를 찾아주어 엉뚱한 곳으로 가는 것을 막습니다.
작동 원리:
1. 사용자가 질문하면, 인공지능이 질문을 '삼중항 (Subject-Relation-Object)'이라는 작은 조각들로 나눕니다.
2. 도서관 (지식 그래프) 에서 이 조각들과 딱 맞는 것을 찾습니다.
3. 만약 딱 맞는 게 없다면? **"완벽하지 않아도 돼, 비슷한 거 찾아줘"**라고 조건을 조금씩 완화하며 (Query Relaxation) 다시 찾습니다.
4. 찾은 정보들을 인공지능에게 보여주고, "이 정보로 답을 만들어줘"라고 시킵니다.

🧪 실험 결과: "정답률"이 확 달라졌습니다

연구팀은 이 방식을 실제 컴퓨터 과학 논문 10 편으로 테스트했습니다.

기존 방식 (단순 조각): 책 내용을 잘게 잘라 (Chunking) 비슷한 단어를 찾아주는 방식.
새로운 방식 (DDM + KG): 책의 구조를 이해하고 정확한 지도를 보여주는 방식.

결과:

정확도: 새로운 방식이 훨씬 정확한 답을 냈습니다.
완전성: 질문의 모든 부분을 잘 이해하고 답을 완성했습니다.
독창성: 같은 질문을 해도 더 다양한 관점과 정보를 포함했습니다.

🌟 결론: 왜 이것이 중요한가요?

이 연구는 **"인공지능이 책을 읽을 때, 단순히 글자를 읽는 것이 아니라 책의 구조를 이해하고, 도서관의 지도를 보고 정확한 정보를 찾아내게 한다"**는 것을 증명했습니다.

앞으로 이 기술이 발전하면:

연구자들은 방대한 논문 속에서 필요한 정보를 순간적으로 찾을 수 있습니다.
인공지능이 거짓말 (할루시네이션) 을 줄이고, 신뢰할 수 있는 학술적 조언을 해줄 수 있습니다.

한 줄 요약:

"이 논문은 인공지능에게 **'책의 구조를 해부하는 안목 (DDM)'**과 **'정확한 지도 (지식 그래프)'**를 주어, 거대한 학술 도서관에서 **실수 없이 정확한 보물 (지식)**을 찾아오게 만든 방법입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 학술 지식 그래프 (Scholarly Knowledge Graph, KG) 는 연구 논문, 저자, 기관 등을 연결하여 지식 발견과 정보 검색을 용이하게 합니다.
한계점:
- 세부 정보의 부재: 기존 KG 구축 방법은 학술 논문의 미세한 구조 (단락, 문장, 섹션 간의 계층적 관계) 와 세부 사항을 포착하지 못해 중요한 정보와 맥락이 손실됩니다.
- 복잡한 쿼리의 비효율성: 대규모 학술 KG 에서 복잡한 질의를 수행할 때 정확도와 효율성이 낮아, 관련 지식을 효과적으로 검색하기 어렵습니다.
- LLM 의 환각 (Hallucination) 문제: 대규모 언어 모델 (LLM) 이 복잡한 사실 검증이 필요한 질문을 다룰 때, 훈련 데이터에 의존하여 잘못된 정보를 생성하는 '환각' 현상이 발생합니다.

2. 제안된 방법론 (Methodology)

이 논문은 ANU 학술 지식 그래프 (ASKG) 와 LLM을 통합하여 위 문제들을 해결하는 새로운 프레임워크를 제안합니다. 핵심 구성 요소는 다음과 같습니다.

A. 심층 문서 모델 (Deep Document Model, DDM)

목적: 비정형 텍스트 (학술 논문) 를 구조화된 지식 표현으로 변환하여 계층적 구조와 의미론적 관계를 미세하게 (fine-grained) 표현합니다.
작동 원리:
- DOMO (Document Object Model Ontology): 웹 문서의 DOM 개념을 학술 문서에 적용하여 제목, 초록, 섹션, 문단, 문장, 인용 등을 논리적 노드로 정의합니다.
- 파이프라인: PDF 를 HTML/XML 로 변환 $\rightarrow$ MEL(메타데이터 추출) 및 TNNT(개체명 인식) 도구 활용 $\rightarrow$ 문장 단위로 분할 및 헤딩과 정렬 $\rightarrow$ RDF 형식으로 변환하여 KG 에 통합.
- 효과: 논문의 물리적 레이아웃이 아닌 논리적 구조를 포착하여, 섹션/문단/문장 수준에서의 정밀한 정보 검색과 추론이 가능해집니다.

B. KG 강화 쿼리 처리 (KG-enhanced Query Processing, KGQP)

목적: LLM 의 환각을 줄이고 복잡한 쿼리의 정확도를 높이기 위해 KG 구조를 활용합니다.
작동 원리:
1. Triple 매핑: LLM 이 사용자 질의를 의미 있는 삼중항 (Triples) 형태로 변환합니다 (LOT: LLM Output Triples).
2. 그래프 매칭 (SPARQL): 변환된 삼중항을 ASKG 에서 정밀 매칭 (Exact Matching) 또는 쿼리 완화 (Query Relaxation) 전략을 통해 검색합니다.
  - 쿼리 완화: 정밀 매칭 실패 시, 삼중항을 대체 (Replacement) 하거나 삭제 (Deletion) 하여 조건을 완화하는 'Fuzzy Matching'을 수행합니다.
3. 순위 매핑 및 LLM 상호작용: 검색된 후보 삼중항 (Candidate Triples) 을 LLM 에 제공하여 최종 답변을 생성하고, 빈도 (Frequency) 와 순도 (Purity) 지표를 기반으로 결과를 재순위화합니다.

3. 주요 기여 (Key Contributions)

DDM 제안: 학술 논문의 계층적 구조와 의미 관계를 미세하게 표현하는 새로운 접근법 제시.
KGQP 방법론: KG 구조를 활용하여 복잡한 쿼리를 최적화하고 검색 정확도 및 효율성을 향상시키는 파이프라인 개발.
KG 와 LLM 의 통합: 구조화된 지식 (DDM 기반) 과 LLM 의 언어 이해 능력을 결합하여 지식 활용도 향상 및 자연어 이해 능력 강화.
실증 실험: 기존 벡터 기반 RAG(검색 증강 생성) 방법론과 비교하여 KG 기반 접근법의 우수성을 입증.
실제 적용 사례: 학술 연구 시나리오에서의 실제 적용 가능성 및 지식 관리 혁신 잠재력 제시.

4. 실험 결과 (Results)

실험 설정: 10 편의 컴퓨터 과학 논문으로 구성된 데이터셋을 사용하여, 제안된 KG 기반 시스템과 기존 'Simple Chunking + Vector Embedding' 기반 RAG 시스템을 비교했습니다.
평가 지표: 관련성 (Relevance), 정확도 (Accuracy), 완전성 (Completeness), 가독성 (Readability) 의 4 가지 차원에서 전문가 2 명과 AI(Claude) 가 평가했습니다.
주요 결과:
- 성능 우위: KG 기반 시스템이 모든 평가 지표에서 벡터 기반 시스템보다 높은 평균 점수를 기록했습니다. 특히 **정확도 (3.8 vs 3.5)**와 **완전성 (3.7 vs 3.1)**에서 큰 차이를 보였습니다.
- 다양한 엔티티 추출: KG 기반 방법은 검색된 답변에 더 다양하고 관련성 높은 개체 (Named Entities) 를 포함시켰으며, 벡터 기반 방법과의 엔티티 겹침 비율 (Overlap Ratio) 이 낮고 자카드 거리 (Jaccard Distance) 가 높아 정보의 풍부함을 입증했습니다.
- 임베딩 거리: KG 기반 시스템이 선택한 문단들이 벡터 기반 시스템과 의미적으로 상이하면서도 질문의 맥락에 더 부합하는 것을 확인했습니다.

5. 의의 및 결론 (Significance)

학술 지식 관리의 혁신: 논문의 미세한 구조를 포착하는 DDM 과 KG 기반 쿼리 처리를 통해 연구자들이 문서에서 지식을 더 효과적으로 획득하고 활용할 수 있게 합니다.
LLM 신뢰성 향상: 구조화된 지식 그래프를 컨텍스트로 제공함으로써 LLM 의 환각 현상을 줄이고, 사실 기반의 신뢰할 수 있는 답변 생성을 가능하게 합니다.
확장성: 컴퓨터 과학 분야를 넘어 천문학 등 다른 학문 분야로 확장 가능하며, 표, 수식, 차트 등 비텍스트 정보까지 포함하는 멀티모달 KG 로 발전할 잠재력을 가집니다.
향후 방향: KG 의 동적 업데이트, 멀티모달 정보 통합, 자동화 파이프라인 구축, 그리고 설명 가능한 AI (Explainable AI) 를 위한 추론 경로 제공 등을 통해 시스템을 고도화할 계획입니다.

이 연구는 학술 정보 검색 및 지식 발견 분야에서 **구조화된 지식 (KG)**과 **생성형 AI (LLM)**의 시너지를 극대화하는 새로운 패러다임을 제시한다는 점에서 중요한 의의를 가집니다.