RPM: Reasoning-Level Personalization for Black-Box Large Language Models

이 논문은 블랙박스 대형 언어 모델의 개인화를 위해 기존 응답 수준을 넘어 사용자의 추론 구조를 자동으로 발견하고 활용하는 새로운 프레임워크 'RPM'을 제안하며, 이를 통해 개인화 성능과 해석 가능성을 동시에 향상시킵니다.

Jieyong Kim, Tongyoung Kim, Soojin Yoon, Jaehyung Kim, Dongha Lee

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 블랙박스 AI 를 위한 'RPM': 당신의 사고방식을 읽는 새로운 비법

이 논문은 **LLM(거대 언어 모델)**이 어떻게 하면 사용자의 개성을 더 잘 이해하고, 단순히 정답만 주는 게 아니라 사용자만의 사고방식을 따라 답을 줄 수 있는지에 대한 혁신적인 방법을 소개합니다.

기존의 방법들은 "이 사용자는 A 를 좋아하니까 A 를 추천해라"처럼 결과만 맞추는 것에 집중했습니다. 하지만 이 논문은 "왜 A 를 좋아할까? A 를 선택할 때 어떤 이유와 논리를 썼을까?"를 파고듭니다.

이 복잡한 개념을 쉽게 이해할 수 있도록 요리사레시피에 비유해 설명해 드릴게요.


🍳 비유: 요리사 (AI) 와 손님 (사용자) 의 관계

1. 기존 방식: "결과만 맞추는 요리사" (Response-Level Personalization)

기존의 개인화 AI 는 마치 메뉴판만 보고 주문을 받는 요리사 같습니다.

  • 상황: 손님이 "매운 거 주세요"라고 하면, AI 는 과거에 매운 음식을 좋아했던 기록을 보고 "불닭볶음면"을 추천합니다.
  • 문제점: AI 는 "왜 매운 걸 좋아할까?"를 모릅니다. 손님이 매운 걸 좋아하는 이유가 '스트레스 해소' 때문인지, '맛을 즐기는' 때문인지, 아니면 '건강상' 때문인지 전혀 알 수 없습니다. 그래서 비슷한 상황에서도 매운 걸 싫어할 때 실수할 수 있습니다.
  • 결과: 표면적인 패턴만 따라 하므로, 진짜 취향을 깊이 이해하지 못합니다.

2. 새로운 방식 (RPM): "손님의 사고과정을 읽는 요리사" (Reasoning-Level Personalization)

이 논문에서 제안한 RPM손님의 두뇌 속을 스캔해서 '사고방식'을 배우는 요리사입니다.

  • 핵심: 단순히 "무엇을 먹었나?"가 아니라, **"왜 그걸 먹었나?"**를 분석합니다.
  • 과정:
    1. 재료 추출 (Feature Extraction): 손님이 과거에 남긴 리뷰나 대화에서 중요한 '재료'들을 찾아냅니다. (예: "매운맛", "건강", "가성비" 등)
    2. 요리 철학 정리 (Factor Construction): 이 재료들을 묶어서 손님의 고유한 요리 철학을 만듭니다. (예: "이 손님은 '건강'을 최우선으로 하지만, '맛'이 없으면 안 먹는다"는 식)
    3. 사고 경로 만들기 (Reasoning Path): 과거의 성공적인 주문 사례들을 보며, "이 손님은 A 라는 재료를 볼 때, B 라는 철학에 따라 C 라는 결론을 내렸다"는 논리적 흐름을 기록해 둡니다.

🚀 RPM 이 어떻게 작동할까요? (3 단계 과정)

이 시스템은 크게 세 가지 단계를 거칩니다.

1 단계: 손님의 '취향 지도' 만들기 (Personalized Factor Construction)

  • AI 는 손님의 과거 대화 기록을 뒤져서 중요한 키워드 (특징) 들을 찾아냅니다.
  • 그리고 이 키워드들을 묶어서 통계적인 지표를 만듭니다.
    • 예시: "이 손님은 '맛 (Taste)'이라는 요소가 나올 때, 90% 의 확률로 긍정적인 반응을 보이며, 특히 '건강 (Health)'과 결합되면 더 기뻐한다."
  • 이렇게 하면 AI 는 단순히 "매운 거 좋아함"이 아니라, **"건강을 중시하는 매운맛 선호자"**라는 구체적인 프로필을 갖게 됩니다.

2 단계: '사고 시뮬레이션' 저장 (Personalized Reasoning Construction)

  • 이제 과거의 주문 기록을 다시 꺼내 봅니다.
  • "아, 이 손님이 이 메뉴를 선택할 때, '맛'과 '건강'을 저렇게 연결해서 결론을 내렸구나!"라고 **논리적 과정 (Reasoning Path)**을 텍스트로 적어둡니다.
  • 이 과정은 마치 손님의 두뇌 속 시나리오를 기록해 두는 것과 같습니다.

3 단계: 새로운 주문에 맞춰 '사고'를 복사 (Reasoning-Aligned Generation)

  • 새로운 질문 (주문) 이 들어오면, RPM 은 두 가지를 합니다.
    1. 유사한 사례 찾기: 과거 기록 중, 새로운 질문과 '논리 구조'가 비슷한 예를 찾아옵니다. (단순히 주제만 비슷한 게 아니라, 그 결론을 냈는지가 비슷한 경우)
    2. 사고방식 적용: 찾아낸 사례의 '사고 시나리오'를 참고해서, 새로운 질문에 대한 답을 만듭니다.
  • 결과: AI 는 이제 사용자의 논리를 따라가며 답을 내놓기 때문에, 훨씬 더 정확하고 설득력 있는 개인화된 답변을 줍니다.

💡 왜 이것이 중요한가요?

  1. 정답보다 '이유'가 중요합니다:
    단순히 정답을 맞추는 것보다, 사용자가 왜 그 정답을 원했는지를 이해하는 것이 더 중요합니다. RPM 은 이 '이유'를 찾아내어 AI 가 사용자의 마음을 더 깊이 이해하게 합니다.

  2. 해석 가능성 (Interpretability):
    기존 AI 는 "왜 이 답을 냈지?"라고 물어보면 "모르겠다"거나 막연한 답을 줍니다. 하지만 RPM 은 **"이 손님은 '건강' 요소를 중요하게 생각해서 이 답을 냈습니다"**라고 명확하게 설명해 줍니다. 마치 요리사가 "손님이 건강을 중시해서 이 재료를 골랐습니다"라고 설명하는 것과 같습니다.

  3. 블랙박스도 가능:
    이 방법은 AI 의 내부 코드를 건드리지 않아도 됩니다. 마치 외부에서 관찰만 해도 손님의 성향을 완벽하게 파악할 수 있는 마법 같은 도구입니다.

🏁 결론

RPM은 AI 에게 "무엇을" 알려주는 것을 넘어, **"어떻게 생각해야 하는지"**를 가르치는 새로운 방법입니다.

기존의 AI 가 메모리북을 보고 답을 찾는다면, RPM 은 손님의 두뇌 속 시나리오를 복사해서 답을 찾습니다. 덕분에 AI 는 사용자의 진짜 취향을 더 깊이 이해하고, 더 신뢰할 수 있는 답변을 줄 수 있게 됩니다.

이 기술은 앞으로 AI 가 우리 각자에게 더 맞춰진, 마치 나를 가장 잘 아는 비서처럼 행동하는 데 큰 역할을 할 것입니다.