HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'헬리오스 (HELIOS)'**라는 새로운 인공지능 시스템을 소개합니다. 헬리오스는 우리가 인터넷에서 질문을 했을 때, **정리된 표 (Table)**와 **글로 쓰인 문서 (Text)**를 모두 잘 찾아서 정답을 찾아내는 일을 돕습니다.

기존의 방법들은 두 가지 큰 단점이 있었는데요, 헬리오스는 이 두 가지를 모두 해결하고 더 똑똑하게 만들었습니다.

🌟 헬리오스가 해결한 두 가지 문제

너무 넓은 그물 (Early Fusion의 문제):
- 비유: 질문을 할 때, 관련 있는 책 한 권만 찾는 게 아니라, 책 한 권 전체를 통째로 가져와서 읽으려다 보니 관련 없는 내용까지 섞여서 정답을 찾기 힘들어지는 상황입니다.
- 기존 방식: 표의 한 줄과 관련된 글들을 미리 묶어두는데, 질문과 상관없는 글까지 함께 묶여 오기 때문에 정답을 가립니다.
너무 좁은 그물 (Late Fusion의 문제):
- 비유: 질문의 키워드만 딱 맞춰서 조각난 단편 정보만 찾아오는데, 정답을 알기 위해 필요한 **다른 조각 (연결고리)**이 빠져버리는 상황입니다.
- 기존 방식: 질문과 비슷한 단어만 찾아오다 보니, 논리적으로 연결되어야 할 중요한 정보가 누락됩니다.

🚀 헬리오스의 3 단계 마법 (어떻게 작동할까요?)

헬리오스는 이 두 가지 단점을 없애기 위해 세 가지 단계로 정보를 찾아냅니다.

1 단계: 정교한 '연결고리' 찾기 (Edge-based Retrieval)

비유: 기존에는 '책 한 권'이나 '한 장'을 통째로 찾았다면, 헬리오스는 **'책의 특정 문장과 그 문장을 설명하는 그림 사이의 연결선'**을 찾아냅니다.
효과: 불필요한 정보 (잡음) 를 걸러내고, 질문과 정말 밀접하게 관련된 **작은 조각들 (연결선)**만 먼저 모읍니다. 이렇게 하면 정답이 섞여 있는 중요한 정보를 놓치지 않습니다.

2 단계: 필요한 조각을 더 모으기 (Query-relevant Node Expansion)

비유: 처음에 찾은 조각들이 정답을 말해주기엔 부족할 수 있죠? 헬리오스는 **"이 조각을 보면, 저쪽 구석에 있는 다른 조각도 필요할 것 같아!"**라고 생각하며 주변을 더 찾아봅니다.
효과: 질문의 맥락에 맞춰서 처음에는 보이지 않았던 중요한 정보들을 동적으로 추가합니다. 그래서 'A 를 알기 위해서는 B 와 C 를 먼저 알아야 한다'는 복잡한 질문에도 대응할 수 있습니다.

3 단계: AI 의 '논리적 추론' (Star-based LLM Refinement)

비유: 이제 찾은 정보들이 산더미처럼 쌓여 있습니다. 여기서 **대장 (LLM, 거대 언어 모델)**이 등장합니다. 대장은 이 정보들을 보고 "아, 이 표의 숫자들을 더해야 답이 나오네!" 혹은 **"이 글은 질문과 상관없으니 버려야겠다"**라고 논리적으로 판단합니다.
효과: 단순히 단어만 비슷한 게 아니라, 수학 계산이나 여러 단계를 거치는 추론이 필요한 질문도 정답을 찾아냅니다.

🏆 왜 헬리오스가 특별한가요?

기존의 시스템들은 단순히 '비슷한 단어'를 찾는 데 그쳤다면, 헬리오스는 정보의 연결고리를 찾아내고, 필요한 정보를 확장하며, 마지막에 AI 가 논리적으로 결론을 내립니다.

결과: 실험 결과, 헬리오스는 기존 최고 성능 모델들보다 정답을 찾아내는 능력 (Recall) 이 40% 이상, 정답의 순위를 매기는 능력 (nDCG) 이 40% 가까이 뛰어났습니다.
한 줄 요약: 헬리오스는 표와 글을 섞어서 찾는 일을 할 때, 너무 넓게 잡지도 않고, 너무 좁게 보지도 않으며, 마지막에 AI 가 똑똑하게 판단해서 정답을 찾아내는 완벽한 탐정입니다.

이제 여러분도 헬리오스처럼, 복잡한 정보 속에서 정답을 찾아내는 '초능력'을 가진 시스템을 상상해 보세요! 🕵️‍♂️📊📝

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

오픈 도메인 질문 응답 (ODQA) 과 표 - 텍스트 검색 (Table-Text Retrieval) 은 구조화된 데이터 (표) 와 비구조화된 데이터 (텍스트) 를 결합하여 복잡한 질문에 답하는 데 필수적입니다. 기존 연구들은 주로 Early Fusion(조기 융합) 또는 Late Fusion(후기 융합) 중 하나를 사용하지만, 다음과 같은 한계점이 존재합니다.

Early Fusion 의 한계:
- 불충분한 세분성 (Inadequate Granularity): 엔티티 링크링을 통해 테이블 행과 관련 문단을 미리 묶어 '블록 (Star)' 단위로 검색합니다. 이는 쿼리와 무관한 문단을 포함하여 노이즈를 유발하고, 유사도 계산을 왜곡시킵니다.
- 쿼리 의존적 관계 누락: 미리 정의된 링크만 사용하므로, 특정 쿼리에 따라 새롭게 발견되어야 하는 관계 (예: '학교 색상'을 묻는 질문에 'Notre Dame'이 아닌 'Fighting Irish' 문단이 필요한 경우) 를 포착하지 못합니다.
Late Fusion 의 한계:
- 맥락 누락 위험: 개별 노드 (테이블 조각 또는 문단) 를 동적으로 검색하지만, 관련성이 낮은 노드를 검색하거나 중요한 맥락 (예: 테이블의 특정 행과 연결된 문단) 을 놓칠 수 있습니다.
고급 추론 부족: 두 방법 모두 단순한 의미적 유사성 (Semantic Similarity) 에 의존하여, 열별 집계 (Column-wise aggregation) 나 멀티홉 추론 (Multi-hop reasoning) 이 필요한 복잡한 쿼리에는 취약합니다.

2. 방법론 (Methodology)

저자들은 HELIOS라는 새로운 그래프 기반 검색 프레임워크를 제안합니다. 이는 Early Fusion, Late Fusion, LLM 추론의 장점을 조화시키며, 3 단계로 구성된 파이프라인을 가집니다.

1 단계: 엣지 기반 이분 그래프 서브그래프 검색 (Edge-based Bipartite Subgraph Retrieval)

목표: Early Fusion 의 노이즈를 줄이고, Late Fusion 의 불완전성을 보완합니다.
방식:
- Early Fusion (오프라인): 테이블 조각 (Table Segment) 과 문단 (Passage) 을 엔티티 링크링으로 연결하여 초기 이분 그래프 ( $G_d$ ) 를 구축합니다.
- 엣지 검색 (Edge Retrieval): 기존 방법들이 노드 단위로 검색하는 것과 달리, 엣지 (Edge) 단위로 검색합니다. 각 엣지는 (테이블 조각, 문단) 쌍을 선형화하여 ColBERTv2와 같은 멀티 벡터 인코더로 임베딩합니다.
- 동작: 쿼리와 엣지 임베딩 간의 유사도를 계산하여 상위 $k$ 개의 엣지를 선택하고, 이를 재순위화 (Reranking) 하여 후보 서브그래프 ( $G_c$ ) 를 생성합니다. 이는 불필요한 맥락을 제거하면서도 중요한 관계를 놓치지 않는 세분성을 제공합니다.

2 단계: 쿼리 관련 노드 확장 (Query-relevant Node Expansion)

목표: 초기 검색에서 누락된 중요한 관계를 동적으로 찾아냅니다.
방식:
- 시드 노드 선정: 후보 그래프 ( $G_c$ ) 내에서 쿼리와 가장 관련성이 높은 노드들을 '시드 (Seed)'로 선정합니다.
- 노드 확장: 선정된 시드 노드를 기반으로, 전체 그래프에서 해당 노드와 연결된 다른 노드들을 Beam Search 방식으로 확장합니다.
- 확장 쿼리 검색: 시드 노드의 정보를 쿼리에 포함시켜 ( $[q; \Gamma(u)]$ ), 새로운 엣지들을 검색합니다. 이를 통해 쿼리 의존적인 관계를 동적으로 발견하고 그래프를 확장된 그래프 ( $G_l$ ) 로 만듭니다.

3 단계: 스타 기반 LLM 정제 (Star-based LLM Refinement)

목표: 단순 유사도로 해결되지 않는 고급 추론 (집계, 멀티홉) 을 수행합니다.
방식:
- 그래프 분해: 확장된 그래프를 LLM 이 처리하기 쉬운 스타 그래프 (Star Graph, 하나의 테이블 조각을 중심으로 연결된 문단들) 단위로 분해합니다.
- 열별 집계 (Column-wise Aggregation): LLM 이 테이블을 복원하여 쿼리 (예: "가장 최근의 선수") 에 맞는 행을 논리적으로 식별하고, 해당 행을 찾습니다.
- 문단 검증 (Passage Verification): LLM 이 각 엣지 (테이블 - 문단 쌍) 가 쿼리 답변에 실제로 필요한지 이진 분류를 통해 검증합니다. 불필요한 문단 (Hard Negatives) 을 제거하여 최종 정제된 그래프 ( $G_q$ ) 를 생성합니다.
- 최종 출력: 점수에 따라 정렬된 엣지 목록을 Reader 에게 전달합니다.

3. 주요 기여 (Key Contributions)

다중 세분성 (Multi-Granular) 검색 전략: Early Fusion 의 '블록'과 Late Fusion 의 '노드' 사이의 간극을 메우기 위해 엣지 (Edge) 단위를 검색의 기본 단위로 도입했습니다. 이는 불필요한 맥락을 배제하면서도 중요한 관계를 유지하는 최적의 균형을 이룹니다.
동적 그래프 확장 및 LLM 추론 통합: 검색 단계에서 LLM 의 추론 능력을 활용하여, 단순한 의미 매칭으로는 찾을 수 없는 논리적 관계 (집계, 멀티홉) 를 해결합니다. 특히 스타 그래프 단위로 LLM 을 적용하여 할루시네이션을 줄이고 추론 정확도를 높였습니다.
성능 향상: 기존 SOTA 모델들 (Early Fusion 기반, Late Fusion 기반, 하이브리드 모델) 보다 월등히 높은 성능을 달성했습니다.

4. 실험 결과 (Results)

OTT-QA 및 MultimodalQA (MMQA) 데이터셋에서 실험을 수행했습니다.

OTT-QA (Dev Set):
- Recall (AR@2): 기존 최상위 모델 (COS) 대비 42.6% 향상.
- nDCG@50: 39.9% 향상.
- Hits@4K: 12.2% 향상.
- 종단간 QA 성능 (EM/F1): COS 대비 EM 4.2%, F1 4.1% 향상.
MMQA:
- AR@k 평균 20.9% 향상, GPT-4o Reader 사용 시 EM 9.6%, F1 8.5% 향상.
Ablation Study:
- 노드 확장 (QNE) 제거 시 성능 저하 (AR@k 평균 2.1% 감소).
- LLM 정제 (SLR) 제거 시 복잡한 쿼리에서 성능이 크게 떨어짐 (AR@2 에서 5.5% 감소).
- 검색 단위 비교: 엣지 기반 검색이 노드 기반이나 스타 그래프 기반 검색보다 성능이 우수함을 입증.

5. 의의 및 결론 (Significance)

검색과 추론의 융합: HELIOS 는 검색 (Retrieval) 단계에서 LLM 의 추론 능력을 통합하여, 단순한 키워드 매칭을 넘어 논리적 추론이 필요한 복잡한 질문 응답을 가능하게 합니다.
효율성과 정확도의 균형: Beam Search 와 LLM 정제를 통해 계산 비용을 증가시키지 않으면서도 (실행 시간 약 1.37 배 증가), 검색 정확도를 획기적으로 높이는 'Sweet Spot'을 찾았습니다.
미래 지향성: 이 연구는 텍스트와 표뿐만 아니라 이미지 등 다양한 모달리티 간의 연결을 확장할 수 있는 기반을 마련하였으며, 오픈 도메인 QA 의 성능 한계를 극복하는 새로운 패러다임을 제시합니다.

요약하자면, HELIOS 는 엣지 기반의 정교한 검색, 동적 노드 확장, 그리고 LLM 을 활용한 논리적 정제를 결합하여 기존 방법론이 가진 한계를 극복하고 오픈 도메인 테이블 - 텍스트 검색의 새로운 State-of-the-Art 를 달성한 연구입니다.