Aligning Large Language Models with Searcher Preferences

이 논문은 RedNote 의 AI 검색에 처음 도입된 오픈 엔디드 생성형 검색 모델 'SearchLLM'을 소개하며, 계층적 보상 시스템과 GRPO 최적화 기법을 통해 검색 결과의 품질과 사용자 참여도를 향상시키고 안전성을 보장하는 성과를 보여줍니다.

Wei Wu, Peilun Zhou, Liyi Chen, Qimeng Wang, Chengqiang Lu, Yan Gao, Yi Wu, Yao Hu, Hui Xiong

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"검색 엔진이 이제 단순히 링크 목록을 보여주는 것을 넘어, 사용자의 질문에 대해 직접 답변을 만들어주는 시대에 어떻게 안전하고 유용하게 작동할 수 있을까?"**라는 질문에 대한 해답을 제시합니다.

저희가 만든 **'SearchLLM(검색용 거대 언어 모델)'**은 마치 유능한 도서관 사서이자 안전 요원이 합쳐진 존재라고 생각하시면 됩니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제 상황: "너무 많은 정보, 하지만 신뢰할 수 없는 답변"

과거 검색 엔진은 사용자에게 책장 (링크 목록) 을 보여주고, 사용자가 직접 책을 찾아 내용을 읽게 했습니다. 하지만 요즘은 AI 가 내용을 요약해서 바로 답변을 줍니다.

그런데 문제는 AI 가 **망가진 정보 (노이즈)**를 바탕으로 답변을 만들거나, **위험한 거짓말 (할루시네이션)**을 하거나, 사용자가 원하는 게 아닌 장황한 이야기를 늘어놓을 수 있다는 점입니다.

비유: 식당에 주문을 넣었는데, 웨이터가 "오늘 메뉴는 다 먹어본 적 있는 음식이에요"라고 말하거나, "독이 있는 버섯을 드세요"라고 추천한다면 어떨까요? 검색 엔진도 마찬가지입니다.

2. 해결책: SearchLLM 의 '이중 안전 장치'

저희는 이 문제를 해결하기 위해 AI 를 훈련시킬 때 **두 가지 층 (Layer)**으로 나누어 생각했습니다.

1 단계: '절대 위반 불가' 안전 장치 (Bottom-line Constraints)

이건 식당의 위생 기준이나 교통 법규와 같습니다.

  • 사실성: 거짓말을 하면 안 됩니다. (예: "사과가 주황색이다"라고 하면 안 됨)
  • 안전: 위험한 조언을 하면 안 됩니다. (예: "약 대신 소금을 먹으세요"라고 하면 안 됨)
  • 형식: 답변이 엉망으로 쓰여지면 안 됩니다.

이 단계에서 하나라도 실패하면, 아무리 내용이 좋아도 답변을 아예 내보내지 않습니다. 마치 "위생 등급이 C 인 식당은 문을 닫아야 한다"는 원칙과 같습니다.

2 단계: '사용자 경험' 향상 장치 (Behavioral Objectives)

안전 장치가 통과된 후에야, 맛있는 요리를 고민합니다.

  • 강건성: 검색된 정보가 조금 엉망이어도, AI 가 "아, 이 정보는 오래된 거네"라고 걸러내고 정확한 답을 찾아야 합니다.
  • 사용자 맞춤: 사용자가 "간단하게" 원하면 길게 설명하지 않고, 핵심부터 말해야 합니다.
  • 풍부함: 한 가지 관점만 말하지 않고 다양한 의견을 골고루 섞어줍니다.

3. 핵심 기술: "스마트 문지기 (게이트드 집계 전략)"

여기서 가장 중요한 기술은 두 가지 목표를 어떻게 조화시킬까입니다. 보통 AI 를 훈련시킬 때 "안전성"과 "유용성"이 서로 충돌합니다. (예: "안전하게 하려면 말을 아껴야 하는데, 그러면 정보가 부족해진다"는 식)

저희는 이를 해결하기 위해 **'스마트 문지기 (Gated Aggregation)'**라는 장치를 만들었습니다.

비유:

  • 기존 방식: "안전 점수 50 점 + 유용성 점수 90 점 = 총점 140 점"으로 계산합니다. 안전이 부족해도 총점이 높으면 통과시켜버립니다. (위험!)
  • 저희 방식: 먼저 안전 문지기가 통과를 확인합니다. "안전 점수가 90 점 이상인가? 아니? → 아무것도 주지 마세요."
    통과했다면, 그제야 유용성 점수를 곱해서 최종 점수를 매깁니다.
    즉, **"안전하지 않으면 아무리 잘해도 0 점"**이라는 원칙을 수학적으로 강제하는 것입니다.

4. 실제 효과: "RedNote(샤오홍슈) 에서의 성공"

이 기술을 중국의 인기 앱인 **RedNote(샤오홍슈)**의 AI 검색 기능에 적용했습니다.

  • 결과: 사용자들이 AI 가 만든 답변을 더 오래 읽게 되었습니다 (Valid Consumption Rate +1.03%).
  • 효과: "답이 안 나오네, 다시 검색해봐야지"라는 행위가 2.81% 줄었습니다.
  • 안전: 위험한 답변이나 거짓말은 거의 사라졌습니다.

5. 요약: 이 논문이 우리에게 주는 메시지

이 연구는 **"AI 가 자유롭게 답변을 만들어도, 안전장치가 확실하게 작동한다면 사용자는 더 행복해진다"**는 것을 증명했습니다.

단순히 "정답을 맞추는 AI"가 아니라, **"사용자의 안전을 최우선으로 생각하면서도, 필요한 정보를 깔끔하게 정리해 주는 AI"**를 만드는 새로운 기준을 제시한 것입니다.

마치 유능한 비서가 있습니다.

  1. 먼저 "이 정보가 사실인가? 위험한가?"를 철저히 확인합니다. (안전 장치)
  2. 확인된 정보만 가지고, "상사가 원하는 대로" 간결하고 정확하게 보고서를 작성합니다. (유용성 최적화)

이제 검색 엔진도 그런 유능한 비서가 된 것입니다.