LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval

이 논문은 LLM 의 추론 능력을 활용하면서도 지연 시간을 줄이기 위해 명시적 추론 과정을 잠재 공간에 내재화하는 새로운 자기 증류 프레임워크인 LaSER 를 제안하여, 밀도 기반 검색의 성능과 효율성을 동시에 향상시킵니다.

Jiajie Jin, Yanzhao Zhang, Mingxin Li, Dingkun Long, Pengjun Xie, Yutao Zhu, Zhicheng Dou

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 검색 엔진의 두 가지 딜레마

현재 검색 엔진 (검색기) 은 두 가지 방식 중 하나를 선택해야 하는 상황에 처해 있습니다.

  • 방식 A: "일단 검색부터 해!" (기존 방식)

    • 비유: 도서관 사서가 질문을 받자마자 책장 사이를 빠르게 훑어보는 것입니다.
    • 장점: 매우 빠릅니다.
    • 단점: 질문이 너무 복잡하거나 숨은 의도가 있을 때, 표면적인 단어만 보고 엉뚱한 책을 가져옵니다. "왜?"라는 깊은 생각 없이 무작정 검색만 합니다.
  • 방식 B: "생각하고 검색해!" (기존의 'rewrite-then-retrieve' 방식)

    • 비유: 사서가 질문을 받으면, 먼저 고도의 지식을 가진 '전문가'에게 "이 질문의 진짜 뜻이 뭐지? 어떤 단서를 찾아야 할까?"라고 물어보고, 그 전문가가 긴 설명을 써내려간 뒤, 그 설명을 바탕으로 책을 찾습니다.
    • 장점: 매우 정확합니다.
    • 단점: 너무 느립니다. 전문가가 긴 글을 쓰는 데 시간이 걸리므로, 사용자는 답을 받기까지 오래 기다려야 합니다.

핵심 문제: 우리는 방식 B 의 똑똑함방식 A 의 속도를 모두 원하지만, 지금까지는 둘을 동시에 가질 수 없었습니다.


2. 해결책: LaSER (Latent Space for Explicit Reasoning)

LaSER 는 이 딜레마를 해결하기 위해 "검색 엔진의 머릿속에서 조용히 생각하게 만드는" 기술을 개발했습니다.

🎭 비유: "연극 연습"과 "실제 공연"

LaSER 는 검색 엔진을 배우는 연기 학생으로 상상해 보세요.

  1. 훈련 기간 (Explicit View - 명시적 보기):

    • 학생은 **명확한 대본 (Chain-of-Thought, CoT)**을 받습니다.
    • "이 질문의 핵심은 A 고, B 를 먼저 생각한 뒤 C 를 찾아야 해"라고 글자로 적힌 상세한 생각 과정을 보고, 이를 외우며 연습합니다.
    • 이때는 글자를 하나하나 소리 내어 읽으며 (생각을 글로 적으며) 연습하므로 정확하지만 느립니다.
  2. 실제 공연 (Latent View - 잠재적 보기):

    • 무대 위에서는 대본을 읽지 않습니다.
    • 대신, 훈련 때 배운 생각의 흐름을 머릿속 (잠재 공간) 에만 담아두고 순식간에 처리합니다.
    • 비유: 마치 마법사처럼, 입술은 움직이지 않지만 머릿속에서는 복잡한 연산을 빠르게 수행하여 정답을 찾아냅니다.

LaSER 의 핵심: 훈련할 때는 "생각의 대본"을 보고 배우지만, 실제 검색할 때는 그 대본을 글자 없이 머릿속의 '느낌' (Latent Token) 으로 압축해서 사용합니다. 그래서 똑똑함은 유지하면서 속도는 기존 검색기처럼 빠릅니다.


3. 어떻게 가능한가요? (기술의 핵심)

LaSER 는 두 가지 중요한 기술을 사용합니다.

  • 스스로 가르치는 학습 (Self-Distillation):

    • 똑똑한 '선생님 버전 (대본을 읽는 버전)'이 느린 '학생 버전 (생각만 하는 버전)'을 가르칩니다.
    • 학생은 선생님이 내린 정답뿐만 아니라, **생각하는 과정 (중간 단계)**까지 따라가며 배웁니다.
    • 비유: 요리사가 레시피 (대본) 를 보고 요리를 배우다가, 나중에는 레시피 없이도 "이 정도 양념을 넣으면 맛이 날 거야"라는 **직관 (잠재 토큰)**으로 요리를 완성하는 것과 같습니다.
  • 단계별 맞춤 (Trajectory Alignment):

    • 선생님이 10 단계를 거쳐 생각할 때, 학생은 3 단계로 압축해서 생각해야 합니다.
    • LaSER 는 학생의 3 단계가 선생님의 10 단계 중 가장 중요한 핵심 순간들을 잘 포착하도록 맞춰줍니다.
    • 비유: 긴 영화를 3 분짜리 하이라이트 영상으로 편집하되, 중요한 장면이 빠지지 않도록 편집하는 것과 같습니다.

4. 결과는 어떨까요?

실험 결과, LaSER 는 놀라운 성과를 보였습니다.

  • 속도: 기존에 "생각하고 검색"하는 방식 (방식 B) 보다 약 300 배 이상 빠릅니다. (대본을 읽는 시간을 아끼기 때문)
  • 정확도: 느리지만 똑똑한 방식 (방식 B) 과 동등하거나 더 좋은 성능을 냈습니다.
  • 적용: 작은 모델 (0.6B) 이라도 LaSER 를 쓰면, 거대한 모델이 복잡한 논리를 풀 때처럼 똑똑해집니다.

📝 한 줄 요약

LaSER 는 검색 엔진에게 "글자로 생각할 필요 없이, 머릿속에서 조용히 똑똑하게 생각할 수 있는 능력"을 심어주어, 느리지만 똑똑한 방식빠르지만 멍청한 방식의 장점을 모두 잡은 혁신적인 기술입니다.

이제 검색 엔진은 사용자의 복잡한 질문을 받으면, "아, 이 질문은 저런 뜻이겠구나!"라고 순간적으로 통찰을 얻고 정확한 답을 찾아낼 수 있게 되었습니다. 🚀