One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"하나의 모델로 모든 일을 해결하자"**는 아주 흥미로운 아이디어를 제안합니다. 복잡한 기술 용어 대신, 일상적인 비유를 들어 쉽게 설명해 드릴게요.

🎭 핵심 아이디어: "통역사가 필요 없는 대화"

지금까지 AI(대형 언어 모델) 가 외부 정보를 찾아볼 때, 다음과 같은 두 단계를 거쳤습니다.

생각을 말로 표현: AI 가 "내가 궁금한 게 뭐지?"라고 생각한 뒤, 이를 **문장 (텍스트)**으로 만들어냅니다.
통역사 고용: 그 문장을 **별도의 '통역사 (임베딩 모델)'**에게 맡겨서, 도서관 (데이터베이스) 이 이해할 수 있는 **숫자 코드 (벡터)**로 번역하게 합니다.

이 방식의 문제점:
AI 가 이미 모든 정보를 머릿속 (은닉 상태) 에 가지고 있는데, 굳이 문장을 만들어서 다시 통역사에게 맡기는 것은 불필요한 시간 낭비이자 복잡한 과정입니다. 마치 요리사가 요리를 다 해놓고, "이 요리를 설명해달라"고 다른 사람에게 시킨 뒤, 그 설명을 다시 요리사에게 가져가는 것과 비슷합니다.

💡 이 논문이 제안한 해결책: "머릿속을 바로 숫자로!"

이 연구팀은 **"통역사 (별도 모델) 는 필요 없다"**고 말합니다. 대신 AI 의 **머릿속 (은닉 상태) 에 아주 작은 '변환기 (Projection Head)'**만 달아주면 된다고 제안합니다.

비유: AI 가 생각할 때, 그 생각의 흐름을 문장으로 바꾸지 않고, 바로 도서관이 이해할 수 있는 숫자 코드로 변환하는 마법 지팡이를 AI 에게 꽂아주는 것입니다.
결과: 이제 AI 는 외부 정보를 찾을 때, 별도의 통역사를 부르지 않고 스스로의 생각으로 바로 검색을 할 수 있게 됩니다.

🏗️ 어떻게 작동할까요? (세 가지 학습법)

이 작은 변환기를 가르치기 위해 연구팀은 세 가지 방법을 섞어 사용했습니다.

맞춤형 지도 (Alignment Loss): "선생님 (기존 모델) 이 만든 숫자 코드와 내 것이 최대한 비슷하게 만들어라." (가장 기본이 되는 학습)
구분 짓기 (Contrastive Loss): "비슷한 질문은 숫자 코드가 가깝게, 다른 질문은 멀리 있게 배치해라." (질문들 사이의 관계를 이해하게 함)
순위 학습 (Rank Distillation Loss): "선생님이 '이 문서가 1 등, 저 문서가 2 등'이라고 한 순서를 따라해라." (검색 결과의 순위를 잘 맞추게 함)

이 세 가지를 잘 섞어 학습시키니, 별도 통역사 없이도 기존 방식의 97% 에 달하는 성능을 내는 것이 확인되었습니다.

🚀 어떤 이점이 있나요?

속도 폭발: 통역사 (별도 모델) 를 거치지 않으므로, 검색 속도가 약 22 배 빨라졌습니다. (43.5ms → 2.0ms)
간단한 시스템: 서버에 모델을 두 개나 띄울 필요가 없어져서 비용과 관리가 훨씬 쉬워집니다.
성능 유지: 속도는 엄청나게 빨라졌지만, 정확도는 거의 떨어지지 않았습니다. (약 3% 정도만 낮아졌지만, 통계적으로 유의미한 수준)

⚠️ 아직 해결해야 할 점 (한계점)

완벽하지는 않음: 여전히 기존 방식보다 정확도가 아주 조금 낮습니다. (통계적으로 의미 있는 차이)
학습 비용: 이 변환기를 가르치기 위해 처음에는 여전히 통역사 (별도 모델) 가 필요하지만, 일단 가르치고 나면 실제 사용할 때는 통역사가 필요 없습니다.
데이터 의존성: 지금까진 특정 데이터셋 (QReCC) 에서만 잘 작동했고, 다른 상황에서도 잘 될지는 더 연구가 필요합니다.

📝 한 줄 요약

"AI 가 생각을 문장으로 바꾸고 다시 번역하는 귀찮은 과정을 없애고, 생각 자체를 바로 검색 코드로 바꾸는 '초고속 AI'를 만들었습니다. 통역사 없이도 거의 똑똑하게, 훨씬 빠르게 검색할 수 있게 된 거죠!"

이 기술이 상용화되면, 우리가 AI 와 대화할 때 답변이 훨씬 더 빠르고 자연스럽게 돌아올 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 검색 증강 생성 (RAG) 시스템, 특히 대화형 LLM 에이전트는 외부 지식을 검색할 때 일반적으로 **이중 모델 파이프라인 (Two-model pipeline)**을 사용합니다.

단계 1: LLM 이 대화 컨텍스트를 분석하여 자연어 검색 쿼리를 생성합니다.
단계 2: 별도의 임베딩 모델 (Embedding Model) 이 이 생성된 텍스트를 다시 입력받아 벡터로 인코딩한 후 문서 인덱스와 매칭합니다.

핵심 문제점:

중복성 (Redundancy): LLM 은 이미 생성 과정에서 대화의 전체 컨텍스트 (사용자 의도, 대화 이력 등) 를 내부 **히든 상태 (Hidden States)**에 인코딩하고 있습니다. 생성된 텍스트는 이 풍부한 내부 표현의 손실된 (lossy) 이산적 투영일 뿐입니다.
비효율성: 별도의 임베딩 모델이 텍스트를 처음부터 다시 처리하여 LLM 이 이미 가진 의미 정보를 재구성해야 하므로, 인프라 복잡도와 지연 시간 (Latency) 이 증가합니다.

2. 제안 방법 (Methodology)

저자는 LLM 에이전트에 **네이티브 검색 기능 (Native Retrieval Capability)**을 부여하여 별도의 임베딩 모델을 제거하는 방법을 제안합니다.

2.1 핵심 아이디어

LLM 이 생성 과정에서 이미 계산한 **히든 상태 (Hidden States)**를 직접 임베딩 공간으로 매핑하는 **가벼운 프로젝션 헤드 (Projection Head)**를 추가합니다. 이를 통해 생성된 텍스트를 임베딩 모델에 보내는 단계를 생략하고, LLM 이 자신의 표현으로 직접 검색을 수행합니다.

2.2 아키텍처

히든 상태 추출: LLM 의 자동회귀 생성 과정에서 각 토큰의 마지막 레이어 히든 상태 ( $h_i$ ) 를 추출합니다. (생성 오버헤드 없음)
프로젝션 헤드 구조:
1. 입력 프로젝션: LLM 히든 차원을 매핑기 내부 차원으로 선형 변환.
2. Transformer 인코더: 학습 가능한 위치 임베딩을 추가하고, 토큰 간의 의존성을 포착하기 위해 Transformer 인코더 레이어를 적용.
3. 풀링 (Pooling): 유효한 토큰 위치에 대해 평균 풀링 (Mean Pooling) 을 수행하여 고정 차원의 벡터로 압축.
4. 출력 프로젝션 및 정규화: 목표 임베딩 차원으로 변환 후 L2 정규화를 수행 (내적 검색이 코사인 유사도와 동일하도록 보장).

2.3 학습 목표 (Training Objectives)

임베딩 모델 (Teacher) 에서 지식 증류 (Knowledge Distillation) 를 통해 프로젝션 헤드 (Student) 를 학습시키며, 세 가지 손실 함수를 결합합니다.

정렬 손실 (Alignment Loss): 예측된 벡터와 Teacher 임베딩 간의 각도 거리를 최소화 (직접적인 매칭).
대비 손실 (Contrastive Loss): 배치 내 쿼리 간의 상대적 구조를 보존하도록 유도 (InfoNCE).
순위 증류 손실 (Rank Distillation Loss): Teacher 가 문서에 부여한 순위 선호도를 KL 발산을 통해 전수 (Ranking preferences transfer).

최종 목적 함수는 이 세 가지 손실의 가중 합입니다.

3. 주요 기여 (Key Contributions)

중복성 규명 및 해결: 표준 RAG 파이프라인의 불필요한 이중 모델 구조를 식별하고, 히든 상태 프로젝션을 통한 네이티브 검색을 제안했습니다.
3 중 손실 함수 설계: 정렬, 대비, 순위 증류 손실을 결합하여 LLM 히든 상태를 임베딩 공간으로 효과적으로 투영하는 학습 목표를 설계했습니다.
종합적인 실험 검증: 12 가지의 다양한 구성 (Ablation) 에 대한 실험, 부트스트랩 신뢰 구간, 통계적 유의성 검증을 통해 별도의 임베딩 모델 없이도 기존 성능의 97% 를 유지함을 입증했습니다.

4. 실험 결과 (Results)

데이터셋: 대화형 검색 벤치마크인 QReCC를 사용했습니다.
모델 설정: LLM 에이전트 (Qwen3-8B) 와 Teacher 임베딩 모델 (Qwen3-Embedding-8B) 을 동일한 패밀리에서 사용했습니다.
성능 비교 (Baseline vs Proposed):
- 검색 품질: Recall@10 에서 0.637 (Baseline) 대비 0.607, MRR@10 에서 0.329 대비 0.293 으로 기존 성능의 약 95~97% 를 유지했습니다.
- 지연 시간 (Latency): 임베딩 모델 추론을 제거하여 43.5ms 에서 2.0ms 로 약 21.8 배 감소했습니다.
- 통계적 유의성: McNemar 검정 결과, 성능 차이는 통계적으로 유의미하지만 (p=0.0005), 대부분의 트리거 (84.2%) 에서 두 방법이 일치했습니다.
Ablation Study (손실 함수 분석):
- Alignment Loss가 가장 강력한 단일 성능을 보였습니다.
- Rank Distillation Loss는 단독으로는 학습이 붕괴되었으나, Alignment 와 결합 시 성능을 향상시켰습니다.
- 학습 전략: 낮은 학습률 (2e-4) 로 더 긴 에포크 (80 epochs) 동안 학습하는 것이 가장 큰 성능 향상을 가져왔습니다.

5. 의의 및 한계 (Significance & Limitations)

의의

인프라 간소화: 추론 (Inference) 시 별도의 임베딩 모델이 필요 없어지므로, 시스템 아키텍처가 단순해지고 실시간 응답 속도가 획기적으로 개선됩니다.
효율성: LLM 이 이미 계산한 히든 상태를 재사용하므로 추가적인 계산 비용이 거의 들지 않습니다.
새로운 패러다임: "생성 후 인코딩 (Generate-then-Encode)" 방식에서 "히든 상태 직접 매핑" 방식으로의 전환을 제안합니다.

한계점

데이터셋 제한: QReCC 단일 데이터셋에서 평가되었으며, 다른 도메인이나 오픈 도메인 검색으로의 일반화 여부는 검증되지 않았습니다.
동일 패밀리 가정: 실험은 동일한 모델 패밀리 (Qwen) 내에서 수행되었으며, 서로 다른 아키텍처 간 (Cross-family) 매핑은 더 어려울 수 있습니다.
학습 단계 의존성: 학습 단계에서는 여전히 Teacher 임베딩 모델이 필요하며, 추론 단계에서만 제거됩니다.
성능 격차: 여전히 Baseline 대비 약 3% 정도의 성능 저하가 통계적으로 유의미하게 존재합니다.

결론

이 논문은 LLM 에이전트가 외부 지식을 검색할 때 별도의 임베딩 모델을 거치지 않고, 자체 히든 상태를 직접 임베딩 벡터로 변환하여 검색할 수 있음을 증명했습니다. 이는 RAG 시스템의 지연 시간을 획기적으로 줄이면서도 높은 검색 정확도를 유지할 수 있는 효율적인 솔루션을 제시합니다.