Rigidity in LLM Bandits with Implications for Human-AI Dyads

Each language version is independently generated for its own context, not a direct translation.

🚀 핵심 비유: 우주 탐험가 게임

연구진은 AI 모델 (DeepSeek, GPT-4.1, Gemini 등) 을 가상의 우주 탐험가로 만들었습니다.
이 탐험가에게는 두 개의 행성 (X 행성과 Y 행성) 이 있습니다.

게임 규칙: 각 행성에서 금화 (보상) 를 찾을 확률은 처음엔 모릅니다. 탐험가는 행성을 방문하며 금화를 찾고, 더 많은 금화를 얻기 위해 전략을 바꿔야 합니다.
목표: 100 번의 탐험을 통해 최대한 많은 금화를 모으는 것.

연구진은 이 게임의 상황을 두 가지로 바꿔가며 AI 의 반응을 지켜봤습니다.

1. 상황 A: 두 행성 모두 똑같이 불확실할 때 (대칭 보상)

두 행성에서 금화가 나올 확률이 똑같을 때, 인간은 "A 가 좋았네, B 도 한번 가볼까?" 하며 두 행성을 오가며 균형을 맞춥니다.

AI 의 반응: AI 는 엄청나게 고집스러웠습니다.
- 게임이 시작되자마자 첫 번째로 선택한 행성 (예: X 행성) 에만 매달렸습니다.
- 가끔 Y 행성에서 금화가 나오더라도 "아, X 가 더 나을 거야"라며 Y 행성을 거의 무시했습니다.
- 마치 **"내가 처음 선택한 게 정답이야!"**라고 믿고, 새로운 증거가 있어도 그 선택을 바꾸지 않는 고집 센 친구처럼 행동했습니다.
- 연구진은 이를 **'위치 편향의 증폭'**이라고 불렀습니다. (처음에 X 를 선택한 순서적 우연이 AI 의 '고집'으로 변해버린 것)

2. 상황 B: 한쪽 행성이 확실히 더 좋을 때 (비대칭 보상)

X 행성은 금화가 나올 확률이 75%, Y 행성은 25% 라면, 똑똑한 탐험가는 X 행성에 집중하되 가끔 Y 행성도 확인하며 실수를 방지해야 합니다.

AI 의 반응: AI 는 X 행성에 너무 꽉 붙잡았습니다.
- 금화 수치는 인간이나 최적의 전략 (오라클) 에 비해 조금 낮았습니다.
- 가장 큰 문제는 Y 행성을 거의 다시 확인하지 않았다는 점입니다.
- 마치 **"X 가 확실하니까 Y 는 절대 안 가!"**라며, 새로운 정보를 확인하려는 유연성이 전혀 없었습니다.
- 결과적으로, 가끔 Y 행성에서 더 좋은 보상이 나올 기회를 놓쳐 전체적인 효율이 떨어졌습니다.

🔍 왜 이런 일이 일어날까요? (AI 의 두뇌 구조)

연구진은 AI 가 왜 이렇게 행동하는지 수학적 모델로 분석했습니다. 그 결과는 놀라웠습니다.

배우기 매우 느림 (낮은 학습률): AI 는 새로운 정보 (금화 발견 여부) 를 받아들이고 자신의 믿음을 바꾸는 속도가 매우 느립니다.
결정 매우 단호함 (높은 역온도): AI 는 일단 결정을 내리면, 그 선택을 확신하는 정도가 거의 100% 에 가깝습니다. "아마도 X 일지도?"라는 유동적인 사고를 거의 하지 않습니다.

비유하자면:
AI 는 매우 느리게 배우지만, 한번 믿으면 절대 흔들리지 않는 고집 센 사람입니다.

처음에 "X 가 좋겠다"라고 생각하면, 그다음에 Y 가 더 좋다는 증거가 나와도 "아니야, 내 생각이 맞아"라며 무시합니다.
연구진은 AI 의 설정 (Temperature, Top-p 등) 을 바꿔가며 다양한 시도를 했지만, 이 **'느린 학습 + 단호한 고집'**이라는 기본 성향은 변하지 않았습니다.

⚠️ 우리 삶에 어떤 영향을 줄까요? (인간과 AI 의 관계)

이 연구는 AI 가 단순히 '정답을 맞추는 기계'가 아니라, 고유한 편견을 가진 파트너임을 보여줍니다.

가짜 확신 (False Confidence):
AI 는 고집스럽게 자신의 선택을 믿기 때문에, 사용자에게 "이게 정답이야!"라고 매우 확신 있는 어조로 조언할 수 있습니다. 하지만 그 선택은 사실 우연에 기반한 것일 수 있습니다.
- 예시: 투자 조언 AI 가 처음에 우연히 좋은 주식을 추천했다면, 그 후 나쁜 성과가 나와도 "아직도 그 주식이 최고야"라며 고집을 부릴 수 있습니다.
유연성 부재:
상황이 변했을 때 (예: 시장이 급변했을 때) AI 는 상황을 재평가하기보다 과거의 선택에 매달립니다. 이는 인간이 AI 를 맹신할 때 큰 실수를 부를 수 있습니다.
질문 순서의 함정:
AI 는 질문의 순서나 첫 번째 선택에 따라 결과가 달라질 수 있습니다. (X 행성을 먼저 언급했냐, Y 행성을 먼저 언급했냐에 따라 AI 의 고집이 달라짐) 이는 AI 가 사용자의 사고방식을 무의식적으로 조종할 수 있음을 의미합니다.

💡 결론: 무엇을 배울 수 있을까요?

이 논문은 우리에게 중요한 메시지를 줍니다.

"AI 는 완벽하지 않으며, 고집 센 편견을 가지고 있습니다. 우리는 AI 의 조언을 들을 때, 그 AI 가 '고집' 때문에 잘못된 선택을 하고 있을 수 있음을 기억해야 합니다."

AI 는 마치 자신의 첫 번째 선택을 절대 포기하지 않는 고집 센 친구와 같습니다. 우리는 이 친구의 조언을 들을 때, "아, 이 친구는 지금 고집을 부리고 있구나"라고 생각하며, 스스로 다시 한번 확인하고 유연하게 대응해야 합니다. AI 를 맹신하기보다, **함께 협력하되 경계심을 늦추지 않는 '균형 잡힌 파트너십'**이 필요합니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: LLM 밴딧에서의 경직성과 인간 -AI 상호작용에 대한 함의

1. 연구 배경 및 문제 제기 (Problem)

문제의식: 대규모 언어 모델 (LLM) 이 점차 인간과 상호작용하는 환경에 통합되면서, 모델의 편향된 의사결정이 인간의 판단에 어떻게 영향을 미치는지 주목받고 있습니다. 기존 벤치마크는 정확도 (accuracy) 에 초점을 맞추지만, 상호작용 맥락에서 LLM 이 가지는 의사결정 성향 (decision tendencies) 과 편향 (bias) 을 포착하지 못합니다.
연구 목적: LLM 이 인지 과학의 도구인 '밴딧 문제 (Bandit Problem)'에 참여자로 투입되었을 때, 불확실성 하에서 어떻게 학습하고 선택하는지, 그리고 그 성향이 인간 -AI 협업 (Dyads) 에 어떤 위험을 초래할 수 있는지 규명하는 것입니다.
핵심 가설: LLM 은 뇌와 구조적으로 유사하지 않더라도, 인지 모델 (Cognitive Models) 을 적용하여 그 행동 패턴을 분석할 수 있으며, 여기서 발견된 경직성 (Rigidity) 이 인간 사용자의 판단에 부정적인 영향을 미칠 수 있습니다.

2. 방법론 (Methodology)

실험 설계:
- 모델: DeepSeek, GPT-4.1, Gemini-2.5 (API 버전) 세 가지 주요 LLM 을 대상으로 실험.
- 과제: 2-암 밴딧 (Two-arm Bandit) 시뮬레이션. 각 모델당 조건별 $N=200$ 개의 독립 시뮬레이션을 수행하며, 각 시뮬레이션은 $T=100$ 회의 시도 (Trial) 로 구성됨.
- 조건 (Reward Structures):
  1. 대칭적 보상 (Symmetric): 두 옵션 (X, Y) 의 보상 확률이 동일함 ( $p_X=0.25, p_Y=0.25$ ). 이상적인 학습자는 50/50 분포를 보여야 함.
  2. 비대칭적 보상 (Asymmetric): 한 옵션이 우월함 ( $p_X=0.75, p_Y=0.25$ ). 학습자는 우월한 옵션을 활용 (Exploitation) 하되, 가끔 하위 옵션을 재확인 (Re-check) 해야 함.
- 디코딩 매개변수 (Decoding Configurations): Temperature 와 Top-p 를 조작하여 4 가지 전략 (Strict, Moderate, Default-like, Exploratory) 을 설정. Top-k 는 기본값으로 고정.
데이터 분석 및 모델링:
- 행동 지표: 총 보상, 목표 옵션 선택 비율, 손실/승리 후 전환 확률 (Loss/Win-Shift), 고집성 (Stubbornness), 경직성 (Rigidity) 등 계산.
- 계산적 모델링 (Computational Modelling): 관찰된 패턴을 설명하기 위해 계층적 Rescorla-Wagner 학습 모델과 Softmax 정책을 Stan 을 사용하여 피팅 (Fitting).
  - 학습률 ( $A$ ): 예측 오차가 가치 업데이트에 미치는 강도.
  - 역온도 ( $\tau$ ): 선택의 결정론적 정도 (Determinism). $\tau$ 가 높을수록 확률적 선택이 아닌 최적 선택에 가까워짐.

3. 주요 결과 (Key Results)

대칭적 보상 조건 (불확실성 하에서의 편향 증폭):
- 이상적인 학습자는 무작위 선택을 해야 하지만, LLM 들은 초기 선택 (보통 X) 을 기반으로 고집적인 편향 (Stubborn Bias) 을 보임.
- 초기 X 선택이 보상을 받으면, 모델은 다른 옵션 (Y) 을 탐색하지 않고 X 에만 집착함.
- 경직성 지수 (Rigidity Index): 대부분의 조건에서 0.96~0.99 로 매우 높게 나타남. Temperature 나 Top-p 를 조절해도 이 경직성이 완화되지 않음.
- 학습률 vs 역온도: 학습률 ( $A$ ) 은 매우 낮고 (0.09~0.22), 역온도 ( $\tau$ ) 는 거의 최대치 (약 5.0) 에 수렴하여 초기의 우연한 선택이 고정된 정책으로 굳어지는 현상 설명.
비대칭적 보상 조건 (명확한 우월 옵션 하에서의 경직적 활용):
- LLM 들은 우월한 옵션을 빠르게 찾지만, 과도하게 경직적으로 활용함.
- 최적의 학습자 (Oracle) 에 비해 보상이 낮고, 하위 옵션을 재확인하는 빈도가 극히 적음.
- Gemini-2.5 의 예외: 탐색적 설정 (Temp=2.0) 에서 성능이 급격히 하락하고 유효하지 않은 출력이 증가함. 이는 탐색이 아닌 단순한 출력 불안정성으로 해석됨.
- 결론: LLM 은 불확실성이 높을 때는 정보를 수집할 탐색을 하지 않고, 명확할 때는 검증 없이 확신에 차서 행동함.
모델링 결과:
- 모든 모델에서 낮은 학습률 ( $A$ ) 과 매우 높은 역온도 ( $\tau$ ) 가 일관되게 관찰됨. 이는 LLM 이 초기의 작은 편향을 증폭시키고, 새로운 증거를 수용하지 않는 '인지적 관성 (Epistemic Inertia)'을 가짐을 의미.

4. 주요 기여 (Key Contributions)

LLM 의사결정 성향의 정량화: 밴딧 과제를 통해 LLM 의 '경직성 (Rigidity)'과 '편향 증폭 (Bias Amplification)'을 측정 가능한 지표로 제시.
계산적 모델링의 적용: LLM 의 행동을 설명하기 위해 심리학의 Rescorla-Wagner 모델을 적용하여, LLM 이 낮은 학습률과 높은 결정론적 선택을 기반으로 작동함을 입증.
디코딩 매개변수의 한계 확인: Temperature 나 Top-p 와 같은 일반적인 생성 파라미터를 조절한다고 해서 LLM 의 근본적인 의사결정 전략 (경직성) 이 바뀌지 않음을 보여줌.
인간 -AI 상호작용에 대한 경고: LLM 의 이러한 경직성이 인간 사용자에게 전달될 때, 불확실한 상황에서 잘못된 확신을 주거나 명확한 상황에서 대안을 놓치는 등 위험을 초래할 수 있음을 시사.

5. 의의 및 결론 (Significance)

이론적 의의: LLM 을 단순히 텍스트 생성기가 아닌 '의사결정 주체'로 바라보며, 인지 과학적 프레임워크를 적용하여 그 내부 메커니즘을 탐구할 수 있음을 증명.
실용적 함의:
- 인간 -AI 이종군 (Dyads) 의 위험: LLM 이 조언자 역할을 할 때, 초기의 작은 편향이 사용자의 판단을 왜곡하고 잘못된 확신 (False Certainty) 으로 이어질 수 있음.
- 시스템 설계: 단순히 출력의 다양성을 높이는 것 (Temperature 조절) 이 진정한 탐색을 보장하지 않으며, LLM 의 경직성을 완화하기 위한 새로운 접근법 (예: 명시적 재검증 메커니즘, 동적 탐색 전략) 이 필요함.
향후 방향: 더 복잡한 맥락적 밴딧, 사회적 의사결정 과제, 그리고 LLM 의 조언이 인간에게 어떻게 전이되는지에 대한 실험이 필요함.

이 논문은 LLM 이 가진 인지적 관성과 경직성이 단순한 기술적 결함이 아니라, 인간과의 상호작용에서 중요한 윤리적 및 실용적 위험 요소가 될 수 있음을 경고하는 중요한 연구입니다.

Rigidity in LLM Bandits with Implications for Human-AI Dyads

🚀 핵심 비유: 우주 탐험가 게임

1. 상황 A: 두 행성 모두 똑같이 불확실할 때 (대칭 보상)

2. 상황 B: 한쪽 행성이 확실히 더 좋을 때 (비대칭 보상)

🔍 왜 이런 일이 일어날까요? (AI 의 두뇌 구조)

⚠️ 우리 삶에 어떤 영향을 줄까요? (인간과 AI 의 관계)

💡 결론: 무엇을 배울 수 있을까요?

논문 요약: LLM 밴딧에서의 경직성과 인간 -AI 상호작용에 대한 함의

1. 연구 배경 및 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 결과 (Key Results)

4. 주요 기여 (Key Contributions)

5. 의의 및 결론 (Significance)

유사한 논문

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities