Towards Personalized Deep Research: Benchmarks and Evaluations

이 논문은 개인화된 심층 연구 에이전트의 평가를 위해 250 개의 실제 사용자 - 작업 쿼리로 구성된 PDR-Bench 와 개인화 정렬, 콘텐츠 품질, 사실적 신뢰성을 측정하는 PQR 평가 프레임워크를 제안합니다.

Yuan Liang, Jiaxian Li, Yuqing Wang, Piaohong Wang, Motong Tian, Pai Liu, Shuofei Qiao, Runnan Fang, He Zhu, Ge Zhang, Minghao Liu, Yuchen Eleanor Jiang, Ningyu Zhang, Wangchunshu Zhou

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 문제: "모두에게 똑같은 답"을 주는 비서들

지금까지 인공지능 (AI) 연구 비서들은 복잡한 질문을 던지면, 인터넷을 뒤져서 훌륭한 보고서를 만들어냈습니다. 하지만 문제는 그 보고서가 '나'에게 맞는지를 전혀 고려하지 않았다는 점입니다.

  • 비유: 가상의 '최고의 요리사'가 있다고 칩시다. 이 요리사는 누구에게나 똑같은 '프리미엄 스테이크'를 만들어냅니다.
    • 하지만 A 씨는 채식주의자이고, B 씨는 치아 건강이 안 좋아서 부드러운 음식을 원하며, C 씨는 예산이 부족합니다.
    • 요리사가 이들을 구분하지 않고 모두에게 똑같은 스테이크를 준다면? A 씨는 먹을 수 없고, B 씨는 씹기 힘들고, C 씨는 너무 비싸서 못 먹습니다.
    • 기존 AI 평가들은 "요리사가 스테이크를 잘 만들었나 (맛과 재료)"만 보았지, **"이 요리가 이 손님에게 맞았나?"**는 보지 못했습니다.

🎯 2. 해결책: 'PDR-Bench'라는 새로운 시험장

저자들은 이 문제를 해결하기 위해 **PDR-Bench (개인화된 딥 리서치 벤치마크)**라는 새로운 시험장을 만들었습니다.

  • 구성:

    • 50 가지 다양한 미션: 교육, 여행, 건강, 금융 등 일상생활의 중요한 10 가지 분야에 대한 복잡한 연구 과제들.
    • 25 명의 진짜 '손님' (유저 프로필): 단순히 "20 대 남성" 같은 막연한 정보가 아니라, 실제 사람들의 취향, 가족 상황, 과거 대화 기록, 습관까지 포함된 살아있는 프로필 25 명.
    • 결과: 50 개의 미션 × 25 명의 손님 = **250 개의 '나만의 연구 과제'**를 만들어냈습니다.
  • 비유: 이제 요리사 (AI) 에게 "스테이크를 만들어줘"라고만 하지 않습니다.

    • "채식주의자인 A 씨를 위해 채식 스테이크를 만들어줘."
    • "치아가 약한 B 씨를 위해 부드러운 스튜를 만들어줘."
    • "예산이 적은 C 씨를 위해 가성비 좋은 메뉴를 만들어줘."
    • 이렇게 각자의 상황에 딱 맞는 요리를 만들어내는지를 테스트하는 것입니다.

📊 3. 평가 기준: PQR 프레임워크

이제 AI 가 만든 보고서가 좋은지 판단할 때, 세 가지 기준 (PQR) 을 동시에 봅니다.

  1. P (Personalization Alignment) - 맞춤 적합도:
    • "이 보고서가 를 위해 만들어졌는가?"
    • 비유: 채식주의자에게 고기 요리가 나왔다면 점수 0 점. 예산을 고려하지 않은 비싼 여행지를 추천했다면 점수 낮음.
  2. Q (Content Quality) - 내용 품질:
    • "내용이 논리적이고 깊이 있는가?"
    • 비유: 요리가 맛없거나, 재료가 신선하지 않다면 점수 낮음. (누군가를 위한 것이든, 기본 실력은 갖춰야 합니다.)
  3. R (Factual Reliability) - 사실 신뢰도:
    • "정보는 사실인가? 출처는 확실한가?"
    • 비유: 요리사에게 "소고기"라고 했는데 사실은 "인조고기"였다면 점수 0 점. 거짓말을 하지 않았는지 확인합니다.

🔬 4. 실험 결과: 무엇을 발견했나?

저자들은 다양한 AI 비서들을 이 시험장에 투입해 봤습니다.

  • 오픈소스 에이전트 (OAgents 등): **맞춤형 능력 (P)**이 가장 뛰어났습니다. 사용자의 성향을 잘 파악해서 맞춤형 요리를 해냅니다. 하지만 **사실 확인 (R)**이 약해, 가끔 잘못된 정보를 섞어 말하기도 했습니다.
  • 상용 AI (Gemini, O3 등): **사실 확인 (R)**과 **기본 품질 (Q)**이 매우 안정적입니다. 하지만 **맞춤형 능력 (P)**은 오픈소스 에이전트보다 조금 떨어졌습니다. "누군가에게 맞는 요리"보다는 "누구나 먹을 수 있는 안전한 요리"를 만드는 데 강점이 있습니다.
  • 검색 기능만 있는 일반 AI: 전문적인 연구 비서들에 비해 맞춤형 능력이 현저히 떨어졌습니다. 검색만 한다고 해서 내 상황에 맞는 답이 나오지는 않는다는 뜻입니다.

💡 5. 핵심 교훈: "명확한 프로필"이 중요해

실험 중 흥미로운 발견이 하나 있었습니다.

  • AI 에게 "이 사람은 채식주의자이고, 예산이 적다"라고 명확히 알려주면 (Explicit Persona): 아주 잘 맞춥니다.
  • 하지만 "이 사람의 과거 대화 기록만 보여주고, 직접 말해주지 않으면 (Context)": AI 는 그걸 잘 분석하지 못해, 맞춤형 요리를 못 만듭니다.

비유: 요리사에게 "손님이 채식주의자야"라고 직접 말해주면 바로 채식 요리를 하지만, "손님이 어제 채소 샐러드 사진을 올렸고, 고기 메뉴를 안 봤어"라는 기록만 보여주고는 "아, 채식주의자구나!"라고 바로 알아차리기 어렵다는 뜻입니다.

🚀 결론

이 논문은 **"진짜 똑똑한 AI 비서"**를 만들기 위해서는 단순히 정보를 많이 찾는 것뿐만 아니라, 사용자의 개인적인 상황과 성향을 깊이 이해하고 그에 맞춰 답변을 바꿔야 한다는 것을 증명했습니다.

앞으로 우리가 사용할 AI 비서들은 이제 "누구나 쓸 수 있는 일반 보고서"를 주는 것을 넘어, **"내 인생에 딱 맞는 맞춤형 솔루션"**을 주는 방향으로 발전해야 한다는 신호를 보낸 것입니다.