DEO: Training-Free Direct Embedding Optimization for Negation-Aware Retrieval

이 논문은 추가적인 학습이나 모델 업데이트 없이 쿼리를 긍정 및 부정 구성 요소로 분해하여 대비적 목적 함수로 임베딩을 최적화하는 '직접 임베딩 최적화 (DEO)'라는 훈련 없는 방법을 제안함으로써, 부정을 고려한 검색 성능을 획기적으로 향상시킵니다.

Taegyeong Lee, Jiwon Park, Seunghyun Hwang, JooYoung Jang

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚫 "제외"라는 말을 이해하는 검색의 새로운 방법: DEO

이 논문은 우리가 검색할 때 자주 하는 실수, 즉 "A 는 보여줘, 하지만 B 는 빼줘" 같은 요청을 검색 엔진이 잘 못 알아듣는 문제를 해결한 새로운 방법을 소개합니다.

이 방법을 DEO(Direct Embedding Optimization) 라고 부르는데, 쉽게 말해 **"검색어를 수정하지 않고, 검색의 '나침반' 방향만 살짝 돌려주는 기술"**입니다.


🧐 왜 이런 기술이 필요할까요?

우리가 검색창에 **"2024 년 실적은 제외하고 최신 전망만 보여줘"**라고 입력한다고 상상해 보세요.
기존의 검색 엔진 (LLM 이나 RAG) 은 "2024 년"이라는 단어와 "전망"이라는 단어를 모두 포함하고 있는 문서를 찾아서 혼란을 겪습니다. 마치 **"빨간색 사과를 찾아줘, 하지만 빨간색은 빼줘"**라고 시키는 것과 비슷하죠.

기존에는 이 문제를 해결하기 위해 검색 엔진 자체를 다시 공부시켜야 (파인튜닝) 했습니다. 하지만 이는 많은 돈과 시간, 그리고 고사양 컴퓨터가 필요해서 일반인이 쓰기엔 너무 무거웠습니다.

💡 DEO 는 어떻게 해결할까요? (세 가지 단계)

DEO 는 검색 엔진을 다시 공부시키지 않고, 검색어 자체를 똑똑하게 변신시킵니다. 마치 요리사가 재료를 다듬어서 맛을 내는 것과 같습니다.

1️⃣ 단계: "요리 재료"를 분리하기 (질문 분해)

사용자의 복잡한 질문을 AI(대형 언어 모델) 가 두 가지로 나눕니다.

  • ✅ 포함할 것 (Positive): "2025 년 실적 전망", "재무제표"
  • ❌ 제외할 것 (Negative): "2024 년 실적", "2024 년 보고서"

비유: 마치 **"초콜릿 케이크를 만들어줘, 하지만 견과류는 넣지 마"**라고 할 때, 요리사가 **"초콜릿과 케이크"**는 따로, **"견과류"**는 따로 담는 것과 같습니다.

2️⃣ 단계: "나침반" 방향 조정 (임베딩 최적화)

이제 검색 엔진은 원래 질문의 의미를 담은 '나침반 (임베딩 벡터)'을 가지고 있습니다. DEO 는 이 나침반을 다음과 같이 움직입니다.

  • ✅ 포함할 것 쪽으로 당기기: "2025 년 전망"이라는 방향을 향해 나침반을 당깁니다.
  • ❌ 제외할 것 쪽으로 밀어내기: "2024 년 실적"이라는 방향으로는 나침반을 밀어냅니다.
  • 원래 의미는 유지하기: 너무 멀리 날아가지 않도록 원래 질문의 의미도 잡아둡니다.

비유: 자석 (검색어) 이 있습니다.

  • 좋아하는 자석 (포함 항목) 은 가까이 붙여줍니다.
  • 싫어하는 자석 (제외 항목) 은 멀리 밀어냅니다.
  • 이렇게 하면 자석의 극성 (방향) 이 자연스럽게 바뀐 것입니다. 이 과정을 학습 없이 (Training-Free) 순식간에 해냅니다.

3️⃣ 단계: 결과 찾기

이제 방향이 바뀐 나침반으로 다시 검색을 합니다. 이제 검색 엔진은 "2024 년"이 포함된 문서는 멀리 치우고, "2025 년"이 포함된 문서를 가장 먼저 찾아냅니다.


🌟 이 기술의 놀라운 점

  1. 학습 불필요 (Training-Free): 검색 엔진을 다시 가르칠 필요가 없습니다. 기존에 있는 모델을 그대로 쓰면 됩니다.
  2. 빠르고 가볍습니다: 고사양 GPU 가 없어도 CPU 에서 몇 초 만에 처리할 수 있습니다.
  3. 이미지 검색도 가능합니다: "빨간 차가 없는 사진"을 찾을 때도 똑같이 작동합니다. (텍스트뿐만 아니라 이미지 검색에서도 효과가 입증되었습니다.)
  4. 정확도 대폭 상승: 기존 방법보다 검색 결과의 정확도가 10~16% 까지 높아졌습니다.

📊 실제 효과 (숫자로 보는 변화)

  • 텍스트 검색: "2024 년 제외" 같은 질문을 했을 때, 원하는 문서를 찾은 확률이 기존보다 약 16% 증가했습니다.
  • 이미지 검색: "사람이 없는 사진"을 찾을 때, 원하는 사진을 찾아낸 확률이 약 6% 증가했습니다.

🏁 결론

이 논문은 **"검색 엔진을 다시 공부시키는 대신, 검색어의 '의도'를 더 명확하게 만들어주는 똑똑한 방법"**을 제안했습니다.

앞으로 우리가 **"이건 제외하고, 저건 보여줘"**라고 검색할 때, 검색 엔진이 우리 마음을 더 잘 이해하고, 원하지 않는 결과는 깔끔하게 걸러내어 줄 것입니다. 마치 검색어에 붙은 '불필요한 잡음'을 제거해주는 필터처럼 작동하는 셈입니다.