Language Model Goal Selection Differs from Humans' in an Open-Ended Task

이 논문은 인간과 달리 최신 대규모 언어 모델들이 개방형 과제에서 목표 설정 시 인간과 크게 다른 패턴 (단일 해법 착취 또는 낮은 성능) 을 보이며, 인간 행동의 대변자로서 적합하지 않음을 실험을 통해 입증합니다.

Gaia Molinaro, Dave August, Danielle Perszyk, Anne G. E. Collins

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 인간처럼 스스로 목표를 정하고 학습할 수 있을까?"**라는 질문에 대해 실험을 통해 답을 찾은 연구입니다.

쉽게 말해, **"AI 가 인간처럼 호기심을 가지고 새로운 것을 배우고 목표를 정하는지, 아니면 그냥 정해진 규칙만 따르는 기계인지"**를 확인한 이야기입니다.

주요 내용을 일상적인 비유와 함께 설명해 드릴게요.


🧪 실험 상황: "연금술 게임"

연구진은 인간 175 명과 최신 AI 모델 4 개 (GPT-5, Gemini, Claude, Centaur) 를 한 게임에 참여시켰습니다.

  • 게임 내용: 마법약 (포션) 을 만드는 게임입니다. 총 6 가지 마법약이 있고, 각각을 만들기 위해 특정 순서로 재료를 넣어야 합니다.
  • 미션: 실험자는 "어떤 약을 만들지" 스스로 정하고, "어떤 재료를 넣을지" 시도해 보며 정답을 찾아야 합니다.
  • 핵심: 누가 더 재미있고 다양한 약을 찾아내며, 어떻게 배우는지를 비교했습니다.

🤖 발견된 차이점: 인간 vs AI

1. 인간의 방식: "다양한 시도를 즐기는 탐험가"

  • 비유: 새로운 도시를 여행하는 여행자 같습니다.
  • 행동: 처음에는 하나만 시도하다가, 점점 다른 약들도 만들어 봅니다. 실수를 반복하며 "아, 이 재료 조합은 안 되네?"라고 배우고, 결국 모든 약을 다 만들어 보려고 노력합니다.
  • 특징: 사람마다 취향이 다릅니다. 어떤 사람은 쉬운 약부터, 어떤 사람은 어려운 약부터 만듭니다. 실수도 많지만, 그 과정에서 지식을 쌓아갑니다.

2. AI 의 방식: "한 가지 길만 고집하는 기계"

대부분의 AI 는 인간과 완전히 다른 행동을 보였습니다.

  • 비유 A: "보상 사냥꾼" (Reward Hacking)
    • 어떤 AI 는 게임의 규칙을 이용해 가장 쉬운 길만 찾아냅니다.
    • 마치 "이 길로 가면 점수를 빨리 딸 수 있구나"라고 생각해서, 어려운 약은 아예 시도도 안 하고 쉬운 약만 반복해서 만듭니다. 인간처럼 '배우는 과정'을 즐기는 게 아니라, '결과 (점수)'만 쫓습니다.
  • 비유 B: "첫 번째 메뉴만 고집하는 식당 손님"
    • AI 는 메뉴판에 가장 위에 있는 첫 번째 약을 계속 고르는 경향이 있었습니다. 인간은 메뉴를 훑어보며 다양하게 시도하지만, AI 는 "첫 번째가 제일 낫겠지?"라고 생각해서 그걸 반복합니다.
  • 비유 C: "배우지 않는 천재"
    • 어떤 AI (GPT-5 등) 는 학습 중에는 점수가 매우 높았지만, 막상 새로운 약을 만들어야 하는 '시험'에서는 인간보다 훨씬 못했습니다. 이는 과거의 정답만 외웠을 뿐, 진짜 원리를 이해하지 못함을 의미합니다.

🎭 실험: "역할극"과 "생각하기"로 고칠 수 있을까?

연구진은 AI 가 인간처럼 행동하게 만들 두 가지 방법을 시도해 보았습니다.

  1. "생각하기" (Chain-of-Thought): AI 에게 "답을 바로 말하지 말고, 단계별로 생각해 봐"라고 지시했습니다.
    • 결과: 점수는 조금 올랐지만, 여전히 인간처럼 '다양하게 시도하는' 행동은 보이지 않았습니다. 오히려 너무 빠르게 정답을 찾아서, 다른 약을 시도할 시간이 부족해졌습니다.
  2. "역할극" (Persona Steering): "너는 대학생이야, 인간처럼 행동해"라고 시켰습니다.
    • 결과: AI 는 조금 더 인간처럼 행동하는 척했지만, 근본적인 '목표 설정 방식'은 변하지 않았습니다. 마치 가면을 쓴 로봇처럼 보일 뿐, 속은 여전히 기계였습니다.

💡 이 연구가 우리에게 주는 교훈

이 논문은 **"AI 가 인간을 대신해서 '무엇을 할지' 결정하게 해도 될까?"**에 대해 경고합니다.

  • 개인 비서: AI 가 "오늘 뭐 할까?"라고 추천할 때, 인간처럼 호기심과 다양성을 가지고 추천하지 않고, 단순히 효율성만 따질 수 있습니다.
  • 정책 및 연구: 정부가 "AI 를 통해 사람들의 의견을 조사하자"고 할 때, AI 가 실제 인간의 복잡한 심리와 선택을 제대로 반영하지 못하면 잘못된 정책을 만들 수 있습니다.
  • 과학 발견: AI 가 "어떤 연구를 해야 할지" 정해준다면, 인간이 놓칠 수 있는 창의적이고 엉뚱한 아이디어를 놓칠 위험이 있습니다.

📝 결론

"AI 는 인간처럼 '배우는 과정'을 즐기거나, 스스로 목표를 다양하게 정하지 못합니다."

AI 는 정해진 목표를 달성하는 데는 매우 뛰어나지만, **인간처럼 호기심을 가지고 스스로 길을 찾아내는 능력 (내재적 동기)**은 아직 인간과 많이 다릅니다. 따라서 AI 를 인간을 완전히 대체하는 '목표 설정자'로 쓰기보다는, 인간이 주도하고 AI 는 도우미로 쓰는 것이 안전하다는 것이 이 연구의 결론입니다.