p1p1: Better Prompt Optimization with Fewer Prompts

이 논문은 다양한 사용자 프롬프트 간의 편차가 큰 소수만 선별하여 시스템 프롬프트 최적화의 효율성을 높이는 새로운 방법 p1p1을 제안하고, 이를 통해 적은 데이터로도 뛰어난 추론 성능을 달성할 수 있음을 입증합니다.

원저자: Zhaolin Gao (Sid), Yu (Sid), Wang, Bo Liu, Thorsten Joachims, Kianté Brantley, Wen Sun

게시일 2026-04-13
📖 3 분 읽기☕ 가벼운 읽기

이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "왜 어떤 과목은 잘 되고, 어떤 과목은 안 될까?"

인공지능에게 "수학 문제를 풀어줘"라고 할 때, 우리가 지시문 (시스템 프롬프트) 을 어떻게 쓰느냐에 따라 결과가 달라집니다.

  • 비유: 인공지능을 초등학교 학생이라고 상상해 보세요.
    • 지시문 A: "자세히 설명해 줘."
    • 지시문 B: "정답만 알려줘."

어떤 학생은 지시문 A 를 들으면 아주 잘 풀지만, 지시문 B 를 들으면 엉뚱한 답을 냅니다. 하지만 어떤 학생은 지시문이 뭐든 간에 똑같은 실수를 반복하거나, 반대로 지시문과 상관없이 항상 잘 풀기도 합니다.

논문은 **"왜 어떤 과목 (태스크) 은 지시문을 고치면 실력이 급상승하는데, 어떤 과목은 아무리 지시문을 바꿔도 소용이 없는가?"**를 연구했습니다.

2. 핵심 발견: "소음 (Noise) 과 신호 (Signal)"

연구진은 지시문을 바꿀 때 생기는 점수 변화를 두 가지로 나눴습니다.

  1. 생성 소음 (Response Variance): 인공지능이 같은 지시문을 줘도, 매번 다른 답을 내는 우연적인 요인입니다. (예: 오늘 컨디션이 안 좋아서 실수함)
  2. 지시문 차이 (System Prompt Variance): 지시문을 실제로 잘 고쳤을 때 생기는 진짜 실력 차이입니다.

🔍 발견된 사실:

  • 성공하는 경우 (명확한 신호): 지시문을 바꾸면 점수가 확실히 오릅니다. (예: "형식만 맞춰줘"라는 지시문은 명확히 지켜지거나 안 지켜집니다.)
  • 실패하는 경우 (소음에 가려짐): 수학 문제처럼 복잡한 과목에서는, 지시문을 아무리 바꿔도 인공지능이 내는 답이 매번 들쑥날쑥합니다. 지시문 때문에 생기는 차이보다, 인공지능이 그날그날 엉뚱한 실수를 하는 '우연'이 너무 커서, "어떤 지시문이 좋은지"를 구별하기 어렵게 됩니다.

3. 반전: "데이터를 많이 모을수록 오히려 나빠진다?"

일반적으로 기계학습에서는 **"데이터를 많이 모을수록 더 잘 배운다"**고 생각합니다. 하지만 이 논문은 수학 문제 같은 복잡한 과목에서는 정반대라고 말합니다.

  • 비유: 다양한 취향을 가진 100 명의 심사위원에게 그림을 평가하게 해보세요.
    • A 심사위원은 "추상화"를 좋아하고, B 심사위원은 "사실화"를 좋아합니다.
    • 만약 100 명 모두의 점수를 평균내면, "추상화"를 좋아하는 그림은 A 는 100 점, B 는 0 점을 줍니다. 평균은 50 점.
    • "사실화"를 좋아하는 그림도 평균 50 점.
    • 결과: 두 그림의 점수 차이가 사라져서, "어떤 그림이 더 좋은지"를 판단할 수 없게 됩니다.

논문에 따르면, 다양한 수학 문제 (이질적인 데이터) 를 모두 섞어서 학습하면, 어떤 지시문이 특정 문제에는 도움이 되지만 다른 문제에는 방해가 되어, 전체 평균 점수는 비슷해집니다. 그래서 인공지능은 "어떤 지시문이 좋은지"를 배우지 못하게 됩니다.

4. 해결책: p1 (프롬프트 필터링)

이 문제를 해결하기 위해 연구진은 p1이라는 방법을 제안했습니다.

  • 핵심 아이디어: "모든 문제를 다 풀게 하지 말고, 지시문에 따라 결과가 확연히 달라지는 '중요한 문제' 몇 개만 골라서 학습시켜라."
  • 비유:
    • 기존 방식: 100 개의 문제를 다 풀게 해서 평균 점수를 내려고 함. (소음만 많음)
    • p1 방식: "지시문 A 를 주면 100 점, 지시문 B 를 주면 0 점"처럼 차이가 극명하게 나는 문제 2 개만 골라서 학습시킴.
    • 이렇게 하면 인공지능은 "아! 이 지시문이 중요하구나!"를 명확하게 배우게 됩니다.

5. 놀라운 결과

  • AIME(수학 경시대회) 데이터에서 전체 30 문제를 다 학습시켰을 때는 성능이 거의 오르지 않았습니다.
  • 하지만 p1을 써서 가장 효과가 좋은 문제 2 개만 골라서 학습시켰더니, 인공지능의 수학 실력이 비약적으로 향상되었습니다.
  • 더 놀라운 점은, 이 2 개 문제로 만든 지시문은 학습하지 않은 다른 수학 대회 문제나, 더 큰 인공지능 모델에게도 잘 적용되었다는 것입니다.

6. 요약: "적게, 하지만 정확하게"

이 논문의 결론은 매우 간단합니다.

"무조건 많은 데이터를 쌓는 것보다, 인공지능이 '지시문의 중요성'을 명확하게 느낄 수 있는 소수의 핵심 데이터만 골라서 학습시키는 것이 더 효과적이다."

마치 명강의를 들을 때, 모든 내용을 다 외우려 하기보다 핵심 개념이 명확하게 드러나는 예제 2~3 개를 깊이 있게 분석하는 것이 더 실력이 늘어난 것과 같은 이치입니다.

이 방법은 인공지능을 더 똑똑하게 만들면서, 계산 비용과 시간도 크게 줄여주는 획기적인 방법입니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →