OMNIA: Closing the Loop by Leveraging LLMs for Knowledge Graph Completion

이 논문은 구조적 추론과 의미론적 추론을 결합하여 외부 데이터 없이도 지식 그래프의 누락된 삼중항을 효율적으로 완성하는 2 단계 접근법인 OMNIA 를 제안하고, 이를 통해 기존 임베딩 기반 모델 대비 F1 점수를 크게 향상시켰음을 입증합니다.

Frédéric Ieng, Soror Sahri, Mourad Ouzzani, Massinissa Hammaz, Salima Benbernou, Hanieh Khorashadizadeh, Sven Groppe, Farah Benamara

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'OMNIA(오미니아)'**라는 새로운 시스템을 소개합니다. 이 시스템은 **'지식 그래프 (Knowledge Graph)'**라는 거대한 지식 지도를 더 완벽하게 만드는 일을 도와줍니다.

간단히 말해, **"지식 지도에 빠진 조각들을 찾아내어 다시 붙여주는 똑똑한 도우미"**라고 생각하시면 됩니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 배경: 왜 이 일이 필요한가요? (깨진 퍼즐)

우리가 세상을 이해하기 위해 만든 거대한 **'지식 지도 (Knowledge Graph)'**가 있다고 상상해 보세요. 이 지도에는 '사과'와 '과일'을 연결하거나, '코로나'와 '치료제'를 연결하는 수많은 정보 조각 (삼중항, Triple) 이 있습니다.

하지만 최근 인공지능 (LLM) 이 이 지도를 자동으로 만들다 보니, 중요한 조각들이 빠지거나 (불완전) 혹은 틀린 조각이 섞여 들어가는 (노이즈) 문제가 생겼습니다.

  • 예시: "클로로퀸이 코로나를 치료한다"는 사실은 있는데, 지도에는 "리데시비르가 코로나를 치료한다"는 사실만 있고, 두 약물이 서로 관련이 있다는 연결고리가 빠져있는 경우입니다.

기존 방법들은 이 빠진 조각을 찾으려고 **외부 책 (인터넷 검색)**을 뒤지거나, **수학적 계산 (임베딩)**만 믿었습니다. 하지만 외부 책은 신뢰할 수 없거나, 수학 계산만으로는 "약이 바이러스를 막는다"는 미묘한 뉘앙스를 이해하지 못했습니다.

2. OMNIA 의 해결책: 두 단계로 완성하는 '지식 수리공'

OMNIA 는 이 문제를 해결하기 위해 두 단계로 나누어 일합니다. 마치 수제 비누를 만드는 과정이나 고급 레스토랑의 요리 과정과 비슷합니다.

1 단계: 후보 조각 찾기 (클러스터링) - "유사한 친구들 모으기"

가장 먼저, 빠진 조각을 무작위로 찾아내는 건 비효율적입니다. (모든 사물과 관계를 다 조합해 보면 수조 개가 나오니까요!)
OMNIA 는 **"비슷한 패턴을 가진 것들끼리 묶어라"**는 전략을 씁니다.

  • 비유: 도서관에서 책을 정리할 때, 제목만 보고 분류하지 않고 **"주인공이 비슷하거나, 같은 장소에서 일어난 일들"**끼리 묶는다고 상상해 보세요.
  • 실제 작동: "리데시비르"와 "클로로퀸"이라는 두 약물이 모두 "코로나 바이러스"를 "억제한다"는 관계를 공유한다면, 이 두 약물은 **'친구 (클러스터)'**로 묶입니다.
  • 추론: "클로로퀸은 코로나를 치료한다"는 사실이 있는데, "리데시비르"는 아직 치료 관계가 없다면? "아, 이 두 친구는 비슷하니까 리데시비르도 코로나를 치료할 거야!"라고 **새로운 조각 (후보)**을 추측해냅니다.
  • 효과: 이 단계에서 불필요한 조각을 대폭 줄이고, 진짜 빠졌을 법한 조각들만 골라냅니다.

2 단계: 검증하기 (필터링 + LLM) - "엄격한 심사위원"

1 단계에서 추측한 조각들이 모두 맞는 말일까요? 아닐 수도 있습니다. 그래서 두 번의 심사를 거칩니다.

  • 1 차 심사 (간단한 필터): "이 조각은 구조적으로 너무 어색해"라고 바로 거르는 가벼운 검사입니다. (예: "사과가 자동차를 운전한다"는 말은 구조적으로 말이 안 되니까 바로 제외)
  • 2 차 심사 (인공지능 심사위원): 남은 조각들을 **대형 언어 모델 (LLM)**에게 보여줍니다. 이때 LLM 에게는 두 가지 방법을 씁니다.
    • 직관적인 질문: "이 문장이 사실일까?" (예: "리데시비르는 코로나를 치료한다")
    • 맥락 제공 (RAG): "이 약과 관련된 다른 사실들을 먼저 보고 판단해 줘." (친구들의 이야기를 듣고 판단하게 함)
    • 결과: LLM 이 "아, 이건 사실이야!"라고 승인하면 비로소 지도에 추가됩니다.

3. 왜 OMNIA 가 특별한가요?

  • 외부 도움 없이 스스로 해결: 다른 방법들은 인터넷 검색 같은 외부 자료를 많이 쓰는데, OMNIA 는 지도 자체에 있는 정보만으로도 빠진 조각을 찾아냅니다. (마치 외부 지도 없이도 주변 풍경만 보고 길을 찾는 것)
  • 숨겨진 의미 파악: 수학 계산만으로는 놓치기 쉬운 "약간의 뉘앙스"나 "암시적인 의미"를 LLM 이 잘 잡아냅니다.
  • 효율성: 모든 조합을 다 찾아보는 (브루트 포스) 방식은 시간이 너무 오래 걸리지만, OMNIA 는 유사한 것끼리 묶어서 검색 범위를 좁혀서 매우 빠르게 작동합니다.

4. 실험 결과: 얼마나 잘하나요?

연구진은 여러 데이터로 실험을 해봤습니다.

  • 결과: 기존 방법들보다 정확도 (F1 점수) 가 23% 까지 향상되었습니다.
  • 비유: 기존 방법들이 퍼즐을 70% 만 맞추는 데 그쳤다면, OMNIA 는 90% 이상을 완벽하게 맞추는 것입니다. 특히 정보가 빽빽하게 들어찬 지도 (밀집된 지식 그래프) 에서 가장 빛을 발했습니다.

5. 결론

OMNIA는 인공지능이 만든 지식 지도의 구멍을 메워주는 최고의 수리공입니다.

  1. 친구끼리 묶어서 빠진 조각을 추측하고 (클러스터링),
  2. 엄격한 심사를 거쳐 (필터링 + LLM),
  3. 가장 확실한 조각만 지도에 붙여줍니다.

이 시스템을 통해 우리는 더 정확하고, 더 완전한 지식 지도를 가질 수 있게 되며, 이는 미래의 검색 엔진, 질문 답변 시스템, 그리고 지능형 비서들이 훨씬 똑똑하게 작동하는 데 기여할 것입니다.