Learning to Select Visual In-Context Demonstrations

이 논문은 시각적 인-컨텍스트 학습에서 기존 kNN 기반 선택 방식이 객관적 회귀 작업에 한계가 있음을 지적하고, 강화 학습을 통해 최적의 데모 세트를 학습하는 'LSD'를 제안하여 해당 작업에서 기존 방법을 크게 능가하는 성능을 입증했습니다.

Eugene Lee, Yu-Chi Lin, Jiajie Diao

게시일 2026-03-31
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 새로운 일을 배울 때, 어떤 예시를 보여줘야 가장 잘 배울까?"**라는 질문에 대한 답을 찾은 연구입니다.

기존의 AI 는 새로운 문제를 풀 때, **비슷한 예시 (Demonstration)**를 찾아서 보여줍니다. 마치 학생이 시험을 볼 때, "이런 문제도 풀었으니 저 문제도 비슷하게 풀겠지?"라고 생각하며 비슷한 문제를 참고하는 것과 같습니다.

하지만 이 연구는 **"단순히 '비슷한 것'만 찾는 건 부족하다"**고 말합니다. 특히 숫자를 예측하거나 점수를 매기는 작업 (회귀 분석) 에서는 오히려 다양한 예시가 더 중요하다는 것을 발견했습니다.

이 논문의 핵심 내용을 일상적인 비유로 설명해 드리겠습니다.


1. 기존 방식 (kNN): "동네 친구만 모으기"

기존의 가장 흔한 방법은 **k-Nearest Neighbor (kNN)**입니다. 이는 **"가장 비슷한 친구"**를 찾는 방식입니다.

  • 상황: 8 세 아이의 나이를 맞추는 문제를 AI 에게 냈다고 가정해 봅시다.
  • 기존 방식 (kNN): AI 는 "8 세 아이와 가장 닮은 다른 8 세 아이들"만 찾아옵니다.
  • 문제점: AI 는 8 세 아이들만 보다가, "아, 8 세는 이런 얼굴이야"라고만 생각합니다. 하지만 1 세나 80 세의 얼굴은 어떻게 생겼는지 전혀 모릅니다. 결과적으로 나이의 전체적인 스펙트럼 (범위) 을 이해하지 못해 정확한 나이를 예측하기 어렵습니다.
    • 비유: "이 아이는 8 세야"라고 가르치려는데, 8 세 아이 사진 10 장만 보여주고 "이제 8 세를 알아냈니?"라고 묻는 꼴입니다.

2. 새로운 방식 (LSD): "다양한 경험을 가진 멘토단"

연구진이 제안한 **LSD (Learning to Select Demonstrations)**는 **강화 학습 (Reinforcement Learning)**이라는 기술을 써서 AI 가 스스로 "어떤 예시가 가장 도움이 될지"를 배우게 합니다.

  • 방식: AI 는 단순히 비슷한 예시만 고르지 않습니다. 가장 다양한 경험을 가진 예시들을 골라냅니다.
  • 상황: 다시 8 세 아이의 나이를 맞추는 문제입니다.
  • 새로운 방식 (LSD): AI 는 8 세 아이뿐만 아니라, 1 세 아기, 30 대 성인, 80 세 노인의 사진도 함께 보여줍니다.
  • 효과: AI 는 "아, 1 세는 이렇게 작고, 80 세는 이렇게 주름이 많구나. 그사이의 8 세는 이 정도구나"라고 **나이의 전체적인 흐름 (Regression Boundary)**을 이해하게 됩니다.
    • 비유: 8 세 아이를 가르칠 때, 유치원생부터 할아버지까지 다양한 연령대의 사람을 소개해 주며 "이 사람이 8 세야"라고 가르치는 것입니다. 이렇게 하면 8 세의 위치를 정확히 파악할 수 있습니다.

3. 중요한 발견: "상황에 따라 다른 전략이 필요하다"

이 논문에서 가장 흥미로운 점은 **"무조건 다양성이 좋은 건 아니다"**라는 사실입니다.

  • 사실적인 문제 (Objective Tasks):

    • 예시: "이 사진의 나이는 몇 살일까?", "이 사진의 화질 점수는 몇 점일까?"
    • 전략: **LSD(다양성)**가 압도적으로 좋습니다. 정확한 답을 내기 위해서는 기준점 (최소값, 최대값, 중간값) 을 모두 보여주는 다양한 예시가 필요하기 때문입니다.
    • 비유: "이 나무의 높이를 재라"고 할 때는 키 작은 아이부터 키 큰 어른까지 다양한 키를 가진 사람을 보여주면 재는 법을 더 잘 배웁니다.
  • 주관적인 문제 (Subjective Tasks):

    • 예시: "이 사진이 예쁜가?", "이 사진의 미적 점수는?"
    • 전략: **기존 방식 (kNN, 유사성)**이 더 좋습니다. 미적 취향은 사람마다 다르고, "비슷한 느낌"을 가진 예시들이 모여야 그 감성을 정확히 전달할 수 있기 때문입니다.
    • 비유: "이 그림이 예쁘다"고 가르치려면, 비슷한 스타일의 아름다운 그림들을 많이 보여줘야 "아, 이런 게 예쁜 거구나"라고 감을 잡을 수 있습니다. 너무 다양한 (예: 추상화, 사실화, 만화) 그림을 섞어주면 오히려 혼란스럽습니다.

4. 결론: "무엇을 배울 것인가에 따라 선생님을 다르게 뽑아야 한다"

이 연구는 AI 에게 새로운 일을 가르칠 때, 단순히 비슷한 예시를 찾는 것만으로는 부족하다는 것을 증명했습니다.

  • 숫자나 사실을 예측할 때: AI 는 다양한 극단적인 예시를 통해 범위를 이해해야 하므로, **LSD(학습된 선택)**가 필요합니다.
  • 감정이나 취향을 판단할 때: AI 는 비슷한 느낌의 예시를 통해 감성을 공유해야 하므로, 기존의 유사성 검색이 더 좋습니다.

한 줄 요약:

"AI 에게 새로운 일을 가르칠 때, 사실적인 문제라면 다양한 경험을 가진 선생님들을 모아야 하고, 감성적인 문제라면 비슷한 취향을 가진 선생님들을 모아야 가장 잘 배웁니다."

이 기술은 앞으로 AI 가 더 똑똑하고 정확한 판단을 내리는 데 큰 도움이 될 것입니다.