원저자: Ranxu zhang, zeyang li, Jiacheng Huang, Rui Zhang, Xiaozhou Xu, sun zhe, Yanyong Zhang, Chao Wang

게시일 2026-05-25✓ Author reviewed ⓘ

📖 4 분 읽기☕ 가벼운 읽기

원저자: Ranxu zhang, zeyang li, Jiacheng Huang, Rui Zhang, Xiaozhou Xu, sun zhe, Yanyong Zhang, Chao Wang

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

개인 비서 로봇을 상상해 보세요. 과거에는 이 로봇들을 '정확한' 방식으로 가르쳤습니다. "도쿄 여행 계획을 세워줘"라고 요청하면 로봇은 평균적인 사람에게 적합한 단일하고 수학적으로 완벽한 일정을 학습했습니다. 이는 효율적이고 논리적이며 사실적으로 정확했습니다.

하지만 현실 세계에서는 '정확함'만으로는 부족합니다. 사용자 A는 걷는 것을 싫어하는 조용한 미술관 애호가이고, 사용자 B는 밤문화를 사랑하는 에너지 넘치는 애니메이션 팬이라면, 그들에게 완벽한 도쿄 여행은 완전히 다릅니다. 동일한 질문이 두 가지 다른 답변을 요구하는 것입니다.

이 논문은 AI 에이전트들이 '만능 전문가'가 되려 노력하는 것을 멈추고 진정한 개인 동반자가 되도록 훈련하는 새로운 방식을 제안합니다. 그들이 어떻게 했는지 간단히 설명해 드리겠습니다.

1. 문제: '평균'의 함정

현재의 AI 훈련은 모든 사람이 좋아하는 단일한 '평균' 요리를 하도록 셰프를 가르치는 것과 같습니다. 매운 요리를 요청하면 셰프는 다수를 만족시키려 노력하기 때문에 순한 요리를 줄지도 모릅니다.

문제점: 실제 사용자는 고유한 취향, 습관, 제약 조건을 가지고 있습니다. '과제를 완료했는가?'와 같은 일반적인 보상 시스템은 사용자에게는 지루하지만 사실적으로 정확한 여행 계획과 사용자에게 완벽하게 맞춤화된 계획 사이의 차이를 구분할 수 없습니다.
노이즈: 때때로 사용자는 진정한 욕구와 일치하지 않는 행동을 합니다 (아마도 친구들이 해서 물건을 샀을지도 모릅니다). AI 는 사용자가 무엇을 '했는지'가 아니라 사용자가 진정으로 무엇을 '원하는지'를 파악해야 합니다.

2. 해결책: 세 가지 도구 키트

저자들은 PARPO(Personalized Anchor Reward-Decoupled Policy Optimization, 개인화 앵커 보상 분리 정책 최적화) 라는 프레임워크를 구축했습니다. 이는 AI 의 뇌를 위한 세 단계 업그레이드라고 생각하세요.

파트 A: '이중 트랙' 코치 (PARPO)

두 명의 선수를 동시에 훈련시키는 스포츠 코치를 상상해 보세요.

트랙 1 (기본기): 코치는 두 선수 모두 완벽하고 안전한 한 바퀴를 뛰도록 보장합니다. 이것이 일반적 품질 보상입니다. 경기를 마쳤는가? 규칙을 준수했는가?
트랙 2 (개인 스타일): 코치는 선수의 스타일에 따라 구체적인 피드백을 제공합니다. 스프린터에게는 "더 빠르게"라고 하고, 마라토너에게는 "에너지를 아껴"라고 합니다. 이것이 개인화 선호 보상입니다.
앵커: 안정성을 유지하기 위해 코치는 각 선수마다 '개인 앵커'를 사용합니다. 스프린터를 마라토너와 비교하는 것 (불공평함) 대신, 코치는 스프린터를 자신의 과거 성과와 비교합니다. 이는 AI 가 서로 다른 사용자들의 서로 다른 '척도'에 혼란을 느끼지 않도록 막아줍니다.

파트 B: '진정한 관심' 탐지기 (보상 모델)

AI 는 사용자가 실제로 무엇을 좋아하는지, 아니면 동조 압력 때문에 무엇을 했는지를 어떻게 알까요?

논문은 2 단계 탐지기를 도입합니다.
- 1 단계: 생애, 기록, 사회적 관계망 등 다양한 각도에서 사용자 프로필을 구축합니다.
- 2 단계: 탐정처럼 '진정한 관심'과 '순응'을 분리합니다. "이 사용자가 이것을 한 것은 그것을 사랑해서인가, 아니면 다른 사람들이 모두 하고 있어서인가?"라고 묻습니다. 신호를 찾기 위해 노이즈를 필터링합니다.

파트 C: '살아있는 도서관' (PSGM)

옛날 AI 기억은 평평한 서류 더미와 같습니다. 질문을 하면 그 전체 더미를 검색합니다.

이 논문은 기술 진화 그래프를 구축합니다. 모든 노드가 연결된 역동적인 3 차원 거미줄을 상상해 보세요.
- 한 노드는 '사용자 A'입니다.
- 그것은 '기술: 미술관 계획'과 연결됩니다.
- 그것은 '시나리오: 비 오는 날'과 연결됩니다.
- 그리고 '도구: 티켓 예약'과 연결됩니다.
사용자가 질문을 하면 AI 는 단순히 검색하는 것이 아니라, 해당 사용자의 과거와 선호도에 맞는 정확한 기술과 도구를 찾기 위해 이 웹을 이동합니다. 마치 베스트셀러를 handing 주는 것이 아니라, 작년에 당신이 좋아했던 책을 정확히 알고 비슷한 것을 추천하는 도서관 사서와 같습니다.

3. 결과: 나머지보다 더 우수함

이 팀은 세 가지 다른 도전 과제에서 이를 테스트했습니다.

ETAPP: 개인 비서를 위한 표준 테스트 (일상 업무 계획).
ETAPP-Hard: 복잡하고 다단계 문제를 포함한 더 어려운 버전.
SJAgent: 거대한 중국 전자상거래 플랫폼의 데이터를 사용한 실제 산업 테스트 (상인들의 의사결정 지원).

결과:
그들의 새로운 프레임워크는 기존에 존재하던 최상의 방법들을 일관되게 능가했습니다.

단순히 사실을 올바르게 전달하는 것을 넘어, '분위기'도 올바르게 잡았습니다.
선제적으로 행동 (욕구 예측) 하고 복잡한 절차를 더 잘 따르는 법을 배웠습니다.
결정적으로, 개별 사용자에게 적응하면서도 높은 품질을 유지하여 '개인화'를 위해 '정확함'을 희생할 필요가 없음을 증명했습니다.

요약 비유

옛날 AI 는 도쿄에 대한 하나의 완벽한 대본을 외워서 모든 사람에게 낭독하는 관광 가이드와 같습니다.
새로운 AI 는 당신을 개인적으로 아는 현지 친구입니다. 그들은 당신이 걷는 것을 싫어하고, 애니메이션을 사랑하며, 예산이 제한적임을 압니다. 그들은 단순히 지도를 주는 것이 아니라, 당신이 이전에 좋아했던 것을 기억하면서 당신이 실제로 보고 싶어 했던 명소를 볼 수 있도록 보장하는, 마치 당신을 위해 특별히 만들어진 하루를 설계합니다.

이 논문은 "일을 올바르게 하는 것"과 "당신이 좋아하는 방식으로 일을 하는 것"을 분리하고, 당신이 정확히 누구인지를 기억하는 똑똑한 기억 시스템을 사용함으로써 이것이 달성된다고 주장합니다.

기술 요약: 정확성에서 선호도로: 개인화된 에이전트 강화학습을 위한 프레임워크

1. 문제 정의

에이전트 강화학습 (Agentic RL) 은 명확한 정답이 있는 검증 가능한 작업 (예: 코드 생성, 웹 탐색) 에서 상당한 성과를 거두었으나, 최적의 행동이 사용자 의존적인 실제 응용 분야에서는 근본적인 도전에 직면해 있습니다. 전자상거래 지원, 여행 계획, 일상 일정 관리와 같은 영역에서는 단일 쿼리 (예: "도쿄에서 1 일 일정 계획하기") 가 여러 가지 타당한 경로를 허용하며, 선호되는 경로는 개별 사용자의 선호도, 습관, 제약 조건에 의해 결정됩니다.

기존 방법들은 일반적으로 전반적인 품질이나 유용성과 같은 범용 목적 함수를 최적화하거나, 프롬프팅이나 메모리 검색을 통해 추론 시에만 개인화를 수행합니다. 사용자 조건부 경로에 대한 정책을 학습 시간 내에 최적화할 수 있는 고유한 학습 프레임워크가 부족합니다. 이 설정은 세 가지 핵심 과제를 도입합니다:

개인화된 보상 모호성: 범용 보상은 작업의 정확성을 포착하지만, 특정 사용자가 경로를 평가하는 방식이나 사용자 간 이질적인 보상 스케일을 어떻게 처리하는지 표현하지 못합니다.
선호도 분리: 관찰된 사용자 행동은 종종 내재적 관심사와 외부적 동조성 또는 맥락적 효과와 얽혀 있어 선호도 신호에 노이즈가 발생합니다.
사용자 인식 메모리: 기존 에이전트 메모리는 평탄하고 쿼리 중심인 경우가 많아, 개인화된 검색에 필요한 사용자, 의도, 기술, 도구, 시나리오 간의 구조적 관계를 모델링하지 못합니다.

2. 방법론

저자들은 학습 시간 최적화 루프에 개인화를 내재화한 통합 개인화된 에이전트 RL 프레임워크를 제안합니다. 이 프레임워크는 선호도 식별, 정책 최적화, 구조화된 기술 축적의 폐쇄 루프로 작동하며, 세 가지 핵심 구성 요소로 구성됩니다:

2.1 PARPO: 개인화된 앵커 보상 분리 정책 최적화

PARPO 는 이질적인 사용자 선호도를 처리하도록 설계된 핵심 정책 최적화 알고리즘입니다.

보상 분리: 최적화를 두 가지 트랙으로 분리합니다. 범용 작업 품질 (정확성, 논리적 일관성) 을 위한 기본 트랙과 사용자 조건부 선호도 개선을 위한 개인화 트랙입니다.
사용자별 앵커: 이질적인 보상 스케일 하에서 학습을 안정화하기 위해, PARPO 는 개인화된 보상을 위해 지속적이고 사용자별인 앵커 (이동 평균 및 분산) 를 유지합니다.
이점 추정:
- 기본 이점( $A_{base}$ ) 은 표준 그룹 내 상대적 정규화를 사용합니다.
- 개인화 이점( $A_{pers}$ ) 은 사용자 인식 기준선을 사용합니다: $b_{u,g} = \max(\bar{R}_{pers}^{(g)}, m_u - \gamma_p \sqrt{v_u})$ . 여기서 $m_u$ 와 $v_u$ 는 사용자의 역사적 보상 통계입니다. 이는 기준선이 사용자의 역사적 중심보다 너무 멀리 벗어나는 것을 방지합니다.
- 총 이점은 가중 합입니다: $A_{total} = w_{base}A_{base} + w_{pers}A_{pers}$ .
이론적 정당성: 저자들은 이질적인 선호도 하에서 사용자 인식 최적화가 사용자 무관 최적화보다 결코 나쁘지 않음을 증명합니다. 표준 GRPO 는 풀된 기준선과 정규화로 인해 구조적 편향을 초래하는 반면, PARPO 는 보상 분해와 앵커 보정을 통해 이러한 편향을 줄임을 보여줍니다.

2.2 2 단계 선호도 분리 보상 모델

깨끗한 개인화 감독을 제공하기 위해, 이 프레임워크는 내재적 관심사를 동조성과 분리하는 보상 모델을 사용합니다.

1 단계 (다중 뷰 프로필 표현): 어텐션 메커니즘과 재구성 손실을 사용하여 사용자 프로필의 여러 의미적 뷰를 융합함으로써 사용자 임베딩을 구성하여 뷰별 정보를 보존합니다.
2 단계 (협력적 분리): 협력적 신호를 전파하기 위해 LightGCN 기반 그래프를 활용합니다. 두 가지 별도의 분기를 학습합니다:
- 관심 인코더: 덜 인기 있는 항목의 가중치를 높여 내재적 선호도를 포착합니다.
- 동조성 인코더: 인기 있는 항목의 가중치를 높여 동조성 효과를 포착합니다.
- 직교성 정규화: 두 분기가 명확하게 구분되도록 보장합니다.
최종 개인화 점수는 이러한 분기의 융합된 표현으로, LLM 기반 평가와 함께 보정 및 통합됩니다.

2.3 선호도 정렬 기술 진화 그래프 메모리 (PSGM)

개인화된 롤아웃 컨텍스트를 지원하기 위해 PSGM 은 평탄한 검색을 이질적 그래프 메모리로 대체합니다.

구조: 그래프 노드는 사용자, 기술, 도구, 시나리오, 경로를 나타냅니다. 간선은 소유권, 적용 가능성, 보완성, 충돌, 실행 이력을 인코딩합니다.
커뮤니티 탐지: 계층적 커뮤니티 탐지 (Leiden/Louvain) 는 사용자와 기술을 커뮤니티로 조직하여 다중 세분성 구조를 포착합니다.
검색 메커니즘:
1. 시맨틱 초기화: 쿼리 유사도를 기반으로 상위 K 개의 기술을 검색합니다.
2. 2 홉 확장: 기술에서 소유자 사용자로, 그리고 해당 사용자의 형제 기술로 후보를 확장하여 개인화된 지역 구조를 주입합니다.
3. 그래프 인식 점수 매기기: 쿼리 - 기술 유사도, 사용자 - 기술 유사도, 커뮤니티 관련성, 보완성, 충돌 패널티를 기반으로 후보를 순위 매깁니다.

3. 주요 기여

문제 공식화: 본 논문은 최적 행동이 단일 정답이 아닌 개별 선호도에 의존하는 사용자 조건부 마르코프 결정 과정 (MDP) 으로 개인화된 에이전트 RL 을 공식화합니다.
PARPO 알고리즘: 이질적인 사용자 보상 스케일 하에서 효과적으로 개인화된 정책을 학습하는 앵커로 안정화되고 보상이 분리된 정책 최적화 방법을 제안합니다.
분리된 감독 및 메모리: 동조성에서 진정한 관심을 분리하기 위한 2 단계 선호도 분리 보상 모델과 선호도 정렬 기술 검색을 위한 구조화된 기술 진화 그래프 메모리 (PSGM) 를 도입합니다.
실증적 검증: 여러 벤치마크에서 일관된 향상을 보여주며, 이 프레임워크가 사실적 및 논리적 무결성을 유지하면서 개인화와 절차적 품질을 개선함을 입증합니다.

4. 실험 결과

이 프레임워크는 ETAPP, ETAPP-Hard(다중 도구 조정과 암시적 추론이 필요한 더 까다로운 분할), 그리고 중국 전자상거래 플랫폼의 실제 산업 시나리오인 SJAgent에서 평가되었습니다.

성능: 제안된 방법 (PARPO + PSGM) 은 프롬프팅 방법 (ReAct), 메모리 기반 에이전트 (Mem0), 다양한 RL 알고리즘 (GRPO, DAPO, GSPO, GiGPO, SkillRL) 을 포함한 강력한 기준선들을 크게 능가했습니다.
- ETAPP-Hard에서 가장 높은 "Judge" 점수와 "Personal" 점수를 달성하여 복잡한 개인화 시나리오에서의 견고성을 나타냈습니다.
- SJAgent에서 데이터 진실성, 비즈니스 논리, 작업 완료와 같은 주요 차원에서 선도하여 도메인 간 일반화를 입증했습니다.
Ablation 연구:
- 기술 메모리를 제거하면 성능이 가장 크게 하락하여 개인화된 의사결정에 대한 그 중심성을 확인했습니다.
- PARPO 를 표준 GRPO 로 대체하거나 사용자 앵커 보정을 제거하면 성능이 크게 저하되어, 분리되고 앵커로 안정화된 접근법의 필요성을 검증했습니다.
- 보상 모델을 분리 (관심/동조성 분기 제거) 하는 것도 성능을 감소시켜, 진정한 선호도를 노이즈와 분리하는 것의 중요성을 강조했습니다.
인간 및 LLM 평가: 20 개의 ETAPP 작업에 대한 블라인드 연구에서 PARPO 는 인간 전문가와 LLM 심사관 모두로부터 가장 높은 평균 점수를 달성했으며, 특히 "사용자 관련성"에서 개선이 단순한 유창함이 아닌 진정한 개인화 때문임을 확인했습니다.
학습 역학: PARPO 는 다른 RL 전략에 비해 우수한 학습 안정성, 높은 성공률, 더 나은 도구 호출 성공률을 보였으며, 안정적인 KL 발산은 과도한 편차 없이 효율적인 정책 개선을 나타냈습니다.

5. 중요성과 한계

중요성:
본 논문은 개인화가 에이전트 RL 의 최적화 목표를 근본적으로 변화시킨다고 주장합니다. "일률적" 정책에서 사용자 조건부 경로 최적화로 이동함으로써, 제안된 프레임워크는 범용 작업 능력과 사용자별 정렬 사이의 간극을 메웁니다. 분리된 보상 모델링과 구조화된 메모리에 의해 지원되는 학습 시간 최적화가 실제 세계의 선호도 기반 환경에서 작동하는 에이전트에게 필수적임을 보여줍니다.

한계:
저자들은 주석 비용으로 인해 인간 평가의 규모가 제한적이며, 20 개의 샘플링된 예시에 대해 15 명의 전문가만 판단을 제공했다고 인정합니다. 이러한 결과가 LLM 평가와 일치하지만, 저자들은 향후 연구가 견고성과 실제 세계 타당성을 더 잘 평가하기 위해 더 크고 다양한 풀로 인간 연구를 확장해야 한다고 지적합니다. 또한, 현재 구현은 특정 그래프 구조와 앵커 메커니즘에 의존하므로 다른 응용 도메인에 맞게 적응이 필요할 수 있습니다.

From Correctness to Preference: A Framework for Personalized Agentic Reinforcement Learning