Aligning Large Language Models with Searcher Preferences

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"검색 엔진이 이제 단순히 링크 목록을 보여주는 것을 넘어, 사용자의 질문에 대해 직접 답변을 만들어주는 시대에 어떻게 안전하고 유용하게 작동할 수 있을까?"**라는 질문에 대한 해답을 제시합니다.

저희가 만든 **'SearchLLM(검색용 거대 언어 모델)'**은 마치 유능한 도서관 사서이자 안전 요원이 합쳐진 존재라고 생각하시면 됩니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제 상황: "너무 많은 정보, 하지만 신뢰할 수 없는 답변"

과거 검색 엔진은 사용자에게 책장 (링크 목록) 을 보여주고, 사용자가 직접 책을 찾아 내용을 읽게 했습니다. 하지만 요즘은 AI 가 내용을 요약해서 바로 답변을 줍니다.

그런데 문제는 AI 가 **망가진 정보 (노이즈)**를 바탕으로 답변을 만들거나, **위험한 거짓말 (할루시네이션)**을 하거나, 사용자가 원하는 게 아닌 장황한 이야기를 늘어놓을 수 있다는 점입니다.

비유: 식당에 주문을 넣었는데, 웨이터가 "오늘 메뉴는 다 먹어본 적 있는 음식이에요"라고 말하거나, "독이 있는 버섯을 드세요"라고 추천한다면 어떨까요? 검색 엔진도 마찬가지입니다.

2. 해결책: SearchLLM 의 '이중 안전 장치'

저희는 이 문제를 해결하기 위해 AI 를 훈련시킬 때 **두 가지 층 (Layer)**으로 나누어 생각했습니다.

1 단계: '절대 위반 불가' 안전 장치 (Bottom-line Constraints)

이건 식당의 위생 기준이나 교통 법규와 같습니다.

사실성: 거짓말을 하면 안 됩니다. (예: "사과가 주황색이다"라고 하면 안 됨)
안전: 위험한 조언을 하면 안 됩니다. (예: "약 대신 소금을 먹으세요"라고 하면 안 됨)
형식: 답변이 엉망으로 쓰여지면 안 됩니다.

이 단계에서 하나라도 실패하면, 아무리 내용이 좋아도 답변을 아예 내보내지 않습니다. 마치 "위생 등급이 C 인 식당은 문을 닫아야 한다"는 원칙과 같습니다.

2 단계: '사용자 경험' 향상 장치 (Behavioral Objectives)

안전 장치가 통과된 후에야, 맛있는 요리를 고민합니다.

강건성: 검색된 정보가 조금 엉망이어도, AI 가 "아, 이 정보는 오래된 거네"라고 걸러내고 정확한 답을 찾아야 합니다.
사용자 맞춤: 사용자가 "간단하게" 원하면 길게 설명하지 않고, 핵심부터 말해야 합니다.
풍부함: 한 가지 관점만 말하지 않고 다양한 의견을 골고루 섞어줍니다.

3. 핵심 기술: "스마트 문지기 (게이트드 집계 전략)"

여기서 가장 중요한 기술은 두 가지 목표를 어떻게 조화시킬까입니다. 보통 AI 를 훈련시킬 때 "안전성"과 "유용성"이 서로 충돌합니다. (예: "안전하게 하려면 말을 아껴야 하는데, 그러면 정보가 부족해진다"는 식)

저희는 이를 해결하기 위해 **'스마트 문지기 (Gated Aggregation)'**라는 장치를 만들었습니다.

비유:

기존 방식: "안전 점수 50 점 + 유용성 점수 90 점 = 총점 140 점"으로 계산합니다. 안전이 부족해도 총점이 높으면 통과시켜버립니다. (위험!)

저희 방식: 먼저 안전 문지기가 통과를 확인합니다. "안전 점수가 90 점 이상인가? 아니? → 아무것도 주지 마세요."
통과했다면, 그제야 유용성 점수를 곱해서 최종 점수를 매깁니다.
즉, **"안전하지 않으면 아무리 잘해도 0 점"**이라는 원칙을 수학적으로 강제하는 것입니다.

4. 실제 효과: "RedNote(샤오홍슈) 에서의 성공"

이 기술을 중국의 인기 앱인 **RedNote(샤오홍슈)**의 AI 검색 기능에 적용했습니다.

결과: 사용자들이 AI 가 만든 답변을 더 오래 읽게 되었습니다 (Valid Consumption Rate +1.03%).
효과: "답이 안 나오네, 다시 검색해봐야지"라는 행위가 2.81% 줄었습니다.
안전: 위험한 답변이나 거짓말은 거의 사라졌습니다.

5. 요약: 이 논문이 우리에게 주는 메시지

이 연구는 **"AI 가 자유롭게 답변을 만들어도, 안전장치가 확실하게 작동한다면 사용자는 더 행복해진다"**는 것을 증명했습니다.

단순히 "정답을 맞추는 AI"가 아니라, **"사용자의 안전을 최우선으로 생각하면서도, 필요한 정보를 깔끔하게 정리해 주는 AI"**를 만드는 새로운 기준을 제시한 것입니다.

마치 유능한 비서가 있습니다.

먼저 "이 정보가 사실인가? 위험한가?"를 철저히 확인합니다. (안전 장치)
확인된 정보만 가지고, "상사가 원하는 대로" 간결하고 정확하게 보고서를 작성합니다. (유용성 최적화)

이제 검색 엔진도 그런 유능한 비서가 된 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존 검색 엔진은 주로 '아이템 중심 (item-centric)'의 순위 매기기에 집중했으나, 최근 생성형 AI 의 발전으로 '답변 중심 (answer-centric)'의 개방형 생성 검색 (Open-ended Generative Search) 으로 패러다임이 전환되고 있습니다. 그러나 대규모 콘텐츠 플랫폼 (예:小红书/RedNote) 에서 개방형 생성 검색을 실제 서비스로 배포할 때는 다음과 같은 심각한 과제가 존재합니다.

노이즈가 포함된 검색 결과에 대한 강건성 부족: 사용자의 모호한 질문이나 검색된 증거 (Evidence) 가 노이즈, 중복, 모순, 또는 시점 오류 (과거 정보) 를 포함할 때, LLM 이 이를 적절히 처리하지 못해 잘못된 답변을 생성할 수 있습니다.
안전 및 신뢰성 보장의 어려움: 사실적 근거 (Factual Grounding), 안전성, 논리적 일관성, 그리고 제어 가능한 형식 준수 등 '최소한의底线 (Bottom-line)'을 지키면서도 사용자의 다양한 니즈를 충족시키는 균형이 필요합니다.
사용자 니즈와의 정렬: 답변이 사용자의 의사결정을 지원할 수 있도록 핵심 정보를 먼저 제시하고, 불필요한 반복을 줄이며, 적절한 수준의 디테일을 유지해야 합니다.

기존의 폐쇄형 (Closed-set) 아이템 생성 방식 (예: 이커머스 제품 ID 생성) 은 이러한 개방형 자연어 생성 검색의 복잡성을 해결하기에 부적합합니다.

2. 방법론 (Methodology)

저자들은 SearchLLM이라는 새로운 LLM 을 도입하고, 이를 최적화하기 위해 **계층적 다차원 보상 시스템 (Hierarchical Multi-dimensional Reward System)**과 **게이트드 집계 전략 (Gated Aggregation Strategy)**을 기반으로 한 강화학습 (RL) 파이프라인을 제안했습니다.

2.1 시스템 개요

통합 워크플로우: 단일 LLM 을 사용하여 의도 계획 (Intent Planning), 증거 선택 (Evidence Selection), 증거 기반 생성 (Evidence-grounded Generation) 을 수행합니다.
입력: 사용자 쿼리, 세션 히스토리, 검색된 증거 집합.
출력: 의도 계획과 최종 답변을 포함한 생성 시퀀스.

2.2 다차원 보상 시스템 (Multi-Dimensional Reward System)

보상 신호를 두 개의 계층으로 명확히 분리하여 설계했습니다.

레이어 I:底线 제약 (Bottom-line Constraints, R2)
- 목적: 안전성과 신뢰성을 위한 비타협적 제약 조건.
- 구성 요소:
  - 할루시네이션 및 사실적 근거: 생성된 답변이 검색된 증거나 외부 지식과 일치하는지 확인.
  - 기본 답변 품질: 논리적 일관성, 가독성, 저품질 텍스트 필터링.
  - 형식 준수: 마크다운 준수, 길이 제한 등 구조적 요구사항.
- 특징: 이 계층의 조건이 실패하면 답변은 즉시 사용 불가능한 것으로 간주됩니다.
레이어 II: 행동 최적화 목표 (Behavioral Objectives, R1 & R3)
- 목적: 안전 영역 내에서 사용자 경험과 강건성 극대화.
- 구성 요소:
  - 강건성 (Robustness): 모호한 쿼리나 노이즈가 있는 증거에 대한 처리 능력, 불확실성 하의 계획 및 추론 품질.
  - 풍부성 및 다양성 (Richness & Diversity): 다양한 관점과 증거를 포함하여 답변의 깊이를 확보.
  - 간결성 및 사용성 (Conciseness & Usability): '답변 먼저 제시 (Answer-first)' 원칙, 불필요한 반복 제거, 높은 신호 - 잡음비 확보.

2.3 하이브리드 평가 스택 (Hybrid Evaluation Stack)

규칙 기반 (Rule-based): 형식, 길이, 특정 키워드 등 결정론적 기준은 규칙으로 평가.
LLM 어드저 (LLM Judges): 복잡한 의미적 차원 (할루시네이션, 논리성 등) 은 인간 전문가에 의해 보정 (Calibration) 된 LLM 이 평가합니다.
인간-인-더-루프 (Human-in-the-loop): 'Blind Group'(답변만 평가) 과 'Assisted Group'(추론 과정 포함 평가) 을 통해 편향을 줄이고 평가 기준을 정렬합니다.

2.4 게이트드 집계 전략 (Gated Aggregation Strategy)

다양한 보상 신호를 단순 가중합하면 '시소 효과 (Seesaw effect)'가 발생하여 (예: 길이를 늘려 점수를 높이는 등)底线 제약이 무너질 수 있습니다. 이를 해결하기 위해 다음과 같은 수학적 기법을 도입했습니다.

소프트-AND 게이트 (Soft-AND Gate): Bottom-line 점수들의 기하평균 (Geometric Mean) 을 사용하여, 어떤 하나의 핵심 제약이라도 낮으면 전체 보상이 급격히 감소하도록 설계합니다.
- 수식: $B_\delta(x, y) = \exp(\frac{1}{m}\sum \log(s_i + \delta))$
행동 유틸리티 (Behavioral Utility): Bottom-line 점수가 임계값 이상일 때만, 행동 목표들의 가산평균 (Weighted Arithmetic Mean) 을 곱하여 최종 보상을 계산합니다.
- 최종 보상: $R(x, y) = B_\delta(x, y) \times U(x, y)$
최적화 알고리즘: **GRPO (Group Relative Policy Optimization)**를 사용하여, 동일한 쿼리에 대해 샘플링된 여러 답변 간의 상대적 우위를 기반으로 정책을 업데이트합니다.

3. 주요 기여 (Key Contributions)

SearchLLM 도입: 대규모 콘텐츠 플랫폼을 위한 최초의 개방형 생성 검색 전용 LLM 을 제안했습니다.
이중 계층 보상 설계: 안전/신뢰성 (Bottom-line) 과 사용자 경험 (Behavioral) 을 분리하여 정렬하는 새로운 보상 설계 방식을 제시했습니다.
**게이트드 집계 전략:**底线 제약과 행동 최적화 간의 상충 관계를 해결하고, 안전성을 해치지 않으면서 성능을 극대화하는 RL 학습 전략을 개발했습니다.
실제 배포 및 검증: 150 만 건 이상의 일간 페이지 뷰를 가진 'RedNote(小红书)'의 AI 검색 기능에 SearchLLM 을 배포하여 온라인 A/B 테스트를 성공적으로 수행했습니다.

4. 실험 결과 (Results)

보상 시스템 정렬도: 제안된 보상 시스템은 기존 GenRM(Generative Reward Model) 및 Rubric 기반 방법보다 인간 전문가의 판단과 훨씬 높은 일치도 (Accuracy, AUC) 를 보였습니다. 특히 안전성 및 사실성 평가에서 우위를 점했습니다.
오프라인 성능: GRPO-Gated(제안 방법) 는 SFT(초기화 모델) 및 DPO, RFT 등 다른 최적화 기법 대비 모든 차원 (안전성, 강건성, 사용성) 에서 우수한 성능을 보였습니다. 특히 Bottom-line 제약이 깨지지 않으면서 행동적 품질이 향상되는 것을 확인했습니다.
온라인 A/B 테스트 (RedNote 배포):
- Valid Consumption Rate (VCR, 유효 소비율): +1.03% 증가 (사용자가 생성된 답변을 유의미하게 읽음).
- Re-search Rate (RR, 재검색율): -2.81% 감소 (한 번의 답변으로 사용자의 니즈가 충족됨).
- Skip Rate (SR, 스킵율) 및 Bad Case Rate (BCR, 불량 사례율): 모두 유의미하게 감소하여 안전성과 사용자 만족도가 동시에 개선됨을 입증했습니다.

5. 의의 및 결론 (Significance)

이 연구는 대규모 콘텐츠 플랫폼에서 개방형 생성 검색을 상용화할 때 필수적인 안전성과 유용성의 균형을 어떻게 달성할 수 있는지에 대한 실증적인 가이드를 제공합니다.

기술적 의의: 단순한 점수 합계가 아닌, 계층적 구조와 게이트 메커니즘을 통해 RLHF/RLAIF 파이프라인의 안정성을 획기적으로 개선했습니다.
산업적 의의: RedNote 와 같은 대규모 플랫폼에서의 성공적인 배포는 생성형 AI 가 단순한 챗봇을 넘어, 신뢰할 수 있는 정보 검색 및 의사결정 지원 도구로 진화할 수 있음을 보여줍니다.
향후 방향: 멀티모달 컨텍스트 확장 및 개인화된 장기 기억 (Long-term Memory) 통합 등을 통해 사용자 경험을 더욱 정교화할 수 있을 것으로 기대됩니다.

요약하자면, 이 논문은 안전한底线을 지키면서 사용자 니즈에 부합하는 고품질 생성 검색을 가능하게 하는 체계적인 프레임워크와 실제 배포 사례를 제시한 획기적인 연구입니다.