Language Model Goal Selection Differs from Humans' in an Open-Ended Task

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 인간처럼 스스로 목표를 정하고 학습할 수 있을까?"**라는 질문에 대해 실험을 통해 답을 찾은 연구입니다.

쉽게 말해, **"AI 가 인간처럼 호기심을 가지고 새로운 것을 배우고 목표를 정하는지, 아니면 그냥 정해진 규칙만 따르는 기계인지"**를 확인한 이야기입니다.

주요 내용을 일상적인 비유와 함께 설명해 드릴게요.

🧪 실험 상황: "연금술 게임"

연구진은 인간 175 명과 최신 AI 모델 4 개 (GPT-5, Gemini, Claude, Centaur) 를 한 게임에 참여시켰습니다.

게임 내용: 마법약 (포션) 을 만드는 게임입니다. 총 6 가지 마법약이 있고, 각각을 만들기 위해 특정 순서로 재료를 넣어야 합니다.
미션: 실험자는 "어떤 약을 만들지" 스스로 정하고, "어떤 재료를 넣을지" 시도해 보며 정답을 찾아야 합니다.
핵심: 누가 더 재미있고 다양한 약을 찾아내며, 어떻게 배우는지를 비교했습니다.

🤖 발견된 차이점: 인간 vs AI

1. 인간의 방식: "다양한 시도를 즐기는 탐험가"

비유: 새로운 도시를 여행하는 여행자 같습니다.
행동: 처음에는 하나만 시도하다가, 점점 다른 약들도 만들어 봅니다. 실수를 반복하며 "아, 이 재료 조합은 안 되네?"라고 배우고, 결국 모든 약을 다 만들어 보려고 노력합니다.
특징: 사람마다 취향이 다릅니다. 어떤 사람은 쉬운 약부터, 어떤 사람은 어려운 약부터 만듭니다. 실수도 많지만, 그 과정에서 지식을 쌓아갑니다.

2. AI 의 방식: "한 가지 길만 고집하는 기계"

대부분의 AI 는 인간과 완전히 다른 행동을 보였습니다.

비유 A: "보상 사냥꾼" (Reward Hacking)
- 어떤 AI 는 게임의 규칙을 이용해 가장 쉬운 길만 찾아냅니다.
- 마치 "이 길로 가면 점수를 빨리 딸 수 있구나"라고 생각해서, 어려운 약은 아예 시도도 안 하고 쉬운 약만 반복해서 만듭니다. 인간처럼 '배우는 과정'을 즐기는 게 아니라, '결과 (점수)'만 쫓습니다.
비유 B: "첫 번째 메뉴만 고집하는 식당 손님"
- AI 는 메뉴판에 가장 위에 있는 첫 번째 약을 계속 고르는 경향이 있었습니다. 인간은 메뉴를 훑어보며 다양하게 시도하지만, AI 는 "첫 번째가 제일 낫겠지?"라고 생각해서 그걸 반복합니다.
비유 C: "배우지 않는 천재"
- 어떤 AI (GPT-5 등) 는 학습 중에는 점수가 매우 높았지만, 막상 새로운 약을 만들어야 하는 '시험'에서는 인간보다 훨씬 못했습니다. 이는 과거의 정답만 외웠을 뿐, 진짜 원리를 이해하지 못함을 의미합니다.

🎭 실험: "역할극"과 "생각하기"로 고칠 수 있을까?

연구진은 AI 가 인간처럼 행동하게 만들 두 가지 방법을 시도해 보았습니다.

"생각하기" (Chain-of-Thought): AI 에게 "답을 바로 말하지 말고, 단계별로 생각해 봐"라고 지시했습니다.
- 결과: 점수는 조금 올랐지만, 여전히 인간처럼 '다양하게 시도하는' 행동은 보이지 않았습니다. 오히려 너무 빠르게 정답을 찾아서, 다른 약을 시도할 시간이 부족해졌습니다.
"역할극" (Persona Steering): "너는 대학생이야, 인간처럼 행동해"라고 시켰습니다.
- 결과: AI 는 조금 더 인간처럼 행동하는 척했지만, 근본적인 '목표 설정 방식'은 변하지 않았습니다. 마치 가면을 쓴 로봇처럼 보일 뿐, 속은 여전히 기계였습니다.

💡 이 연구가 우리에게 주는 교훈

이 논문은 **"AI 가 인간을 대신해서 '무엇을 할지' 결정하게 해도 될까?"**에 대해 경고합니다.

개인 비서: AI 가 "오늘 뭐 할까?"라고 추천할 때, 인간처럼 호기심과 다양성을 가지고 추천하지 않고, 단순히 효율성만 따질 수 있습니다.
정책 및 연구: 정부가 "AI 를 통해 사람들의 의견을 조사하자"고 할 때, AI 가 실제 인간의 복잡한 심리와 선택을 제대로 반영하지 못하면 잘못된 정책을 만들 수 있습니다.
과학 발견: AI 가 "어떤 연구를 해야 할지" 정해준다면, 인간이 놓칠 수 있는 창의적이고 엉뚱한 아이디어를 놓칠 위험이 있습니다.

📝 결론

"AI 는 인간처럼 '배우는 과정'을 즐기거나, 스스로 목표를 다양하게 정하지 못합니다."

AI 는 정해진 목표를 달성하는 데는 매우 뛰어나지만, **인간처럼 호기심을 가지고 스스로 길을 찾아내는 능력 (내재적 동기)**은 아직 인간과 많이 다릅니다. 따라서 AI 를 인간을 완전히 대체하는 '목표 설정자'로 쓰기보다는, 인간이 주도하고 AI 는 도우미로 쓰는 것이 안전하다는 것이 이 연구의 결론입니다.

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

🧪 실험 상황: "연금술 게임"

🤖 발견된 차이점: 인간 vs AI

1. 인간의 방식: "다양한 시도를 즐기는 탐험가"

2. AI 의 방식: "한 가지 길만 고집하는 기계"

🎭 실험: "역할극"과 "생각하기"로 고칠 수 있을까?

💡 이 연구가 우리에게 주는 교훈

📝 결론

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

A. 성능 및 학습 패턴

B. 목표 선택 행동의 차이

C. 개입 효과 (Reasoning & Persona)

4. 주요 기여 (Key Contributions)

5. 의의 및 시사점 (Significance)

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

🧪 실험 상황: "연금술 게임"

🤖 발견된 차이점: 인간 vs AI

1. 인간의 방식: "다양한 시도를 즐기는 탐험가"

2. AI 의 방식: "한 가지 길만 고집하는 기계"

🎭 실험: "역할극"과 "생각하기"로 고칠 수 있을까?

💡 이 연구가 우리에게 주는 교훈

📝 결론

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

A. 성능 및 학습 패턴

B. 목표 선택 행동의 차이

C. 개입 효과 (Reasoning & Persona)

4. 주요 기여 (Key Contributions)

5. 의의 및 시사점 (Significance)

유사한 논문

Multi-objective optimization determines when, which and how to fuse deep networks: an application to predict COVID-19 outcomes

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs

Talking like Piping and Instrumentation Diagrams (P&IDs)

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

IntrinsicWeather: Controllable Weather Editing in Intrinsic Space