Prompt Programming for Cultural Bias and Alignment of Large Language Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (LLM) 이 전 세계 다양한 문화를 이해하고, 그 나라 사람처럼 생각하게 만드는 방법"**에 대한 연구입니다.

한마디로 요약하면: "AI 는 원래 서구권 (미국, 유럽 등) 의 사고방식을 가지고 태어나는데, 우리가 특정 국가의 문화에 맞춰 질문을 던지거나 AI 를 훈련시키면, 그 나라 사람처럼 더 잘 대답할 수 있다는 것을 증명했습니다. 특히, 사람이 직접 문구를 수정하는 것보다 컴퓨터가 자동으로 최적의 문구를 찾아주는 '프롬프트 프로그래밍'이 훨씬 효과적이라는 것을 발견했습니다."

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제: AI 는 왜 '서구권' 사고방식을 가질까?

비유: "전 세계를 여행하는 가이드가 미국인인 경우"

이 논문은 AI 가 마치 미국이나 유럽 출신의 가이드처럼 행동한다고 말합니다.

상황: 전 세계 여러 나라 (한국, 브라질, 나이지리아 등) 의 사람들이 이 가이드에게 "우리나라 사람들은 행복을 어떻게 느끼나요?"라고 물었습니다.
문제: 가이드는 자신이 속한 미국 문화의 기준 (자신 표현, 자유, 개인주의 등) 을 기준으로 모든 나라를 판단합니다. 그래서 한국 사람이나 나이지리아 사람의 진짜 생각과는 다르게, 마치 "미국 사람처럼" 대답해 버립니다.
논문 결과: 연구진들은 다양한 오픈소스 AI 모델 (Llama, Gemma 등) 을 테스트해 보니, 아무런 지시 없이 질문만 하면 모든 AI 가 서구권 문화의 '평균'에 모여 있는 것을 발견했습니다. 마치 전 세계 지도에 서구권 문화라는 '진한 점' 하나만 찍혀 있는 것과 같았습니다.

2. 해결책 1: 사람이 직접 지시하기 (기존 방법)

비유: "가이드에게 '너는 이제 한국 사람이다'라고 말해 주기"

이전 연구에서는 AI 에게 "너는 한국 사람이야"라고 말해주면 (프롬프트 엔지니어링), AI 가 한국 문화에 맞춰 대답을 바꾼다는 것을 발견했습니다.

효과: 가이드가 "아, 내가 한국 사람이라면 이렇게 생각해야겠구나"라고 인지하고 답변을 수정합니다.
한계: 하지만 사람이 일일이 "너는 한국 사람", "너는 브라질 사람"이라고 수동으로 지시하는 것은 번거롭고, 항상 완벽하지는 않습니다.

3. 해결책 2: 프롬프트 프로그래밍 (이 논문의 핵심)

비유: "가이드에게 '최고의 한국 가이드'가 될 수 있는 '매뉴얼'을 자동으로 찾아주기"

이 논문은 사람이 직접 지시하는 대신, DSPy라는 도구를 이용해 AI 가 스스로 가장 좋은 답변 방식을 찾아내게 했습니다.

방법: "너는 한국 사람이다"라는 문구를 사람이 직접 짤 게 아니라, 컴퓨터가 수천 가지의 문구를 시도해보며 **"어떤 문구를 넣었을 때 한국 사람의 실제 답변과 가장 비슷해지나?"**를 계산해서 최적의 문장을 찾아냅니다.
결과: 사람이 일일이 고친 것보다, 컴퓨터가 자동으로 찾아낸 '최적의 매뉴얼'이 훨씬 더 정확하고 안정적으로 AI 를 그 나라 문화에 맞춰주었습니다.
- 특히, **큰 모델 (GPT-OSS 120B)**이 작은 모델보다 더 똑똑한 매뉴얼을 찾아내서, AI 를 문화적으로 더 잘 조율해 주었습니다.

4. 흥미로운 발견: 문화가 다를수록 효과가 큽니다

비유: "가이드가 미국 문화에서 나이지리아 문화로 갈 때의 변화"

서구권 (미국, 영국 등): 가이드가 이미 미국 문화에 가깝게 태어났기 때문에, "너는 미국 사람이다"라고 말해도 큰 변화가 없습니다. (이미 가까우니까요.)
비서구권 (나이지리아, 중동 등): 가이드가 원래 서구권 사고방식을 가지고 있었기 때문에, 최적화된 매뉴얼을 적용하면 사고방식이 크게 변합니다. 마치 가이드가 갑자기 나이지리아의 전통 의상을 입고 현지인의 마음가짐을 갖는 것처럼, 답변이 실제 현지인들과 훨씬 더 비슷해졌습니다.

5. 결론: 왜 이 연구가 중요한가?

비유: "전 세계를 위한 공정한 AI"

이 연구는 다음과 같은 중요한 메시지를 줍니다.

AI 는 편향되어 있다: 우리가 아무 말도 안 하면 AI 는 서구권 가치관만 반영합니다.
조절이 가능하다: "너는 이 나라 사람이다"라고 말해주면 고쳐집니다.
자동화가 더 낫다: 사람이 일일이 고치는 것보다, 컴퓨터가 자동으로 최적의 지시문 (프롬프트) 을 찾아주는 방식이 훨씬 더 효과적이고 안정적입니다.

마무리:
이 논문은 AI 가 전 세계의 다양한 문화를 존중하고, 특정 국가의 정책이나 문서 분석을 할 때 그 나라 사람처럼 생각할 수 있게 만드는 **'문화적 맞춤 기술'**을 개발하는 길을 제시했습니다. 앞으로 AI 가 국제 정치, 외교, 혹은 다양한 문화권의 문서 분석에 쓰일 때, 이 기술을 통해 더 공정하고 정확한 결정을 내리는 데 도움이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요

이 논문은 대규모 언어 모델 (LLM) 이 전략적 의사결정, 정책 지원, 문서 엔지니어링 등 다양한 분야에서 활용됨에 따라 발생하는 문화적 편향 (Cultural Bias) 문제를 다루고 있습니다. 저자들은 기존 연구 (Tao et al., 2024) 가 폐쇄형 (Proprietary) 모델과 수동 프롬프트 엔지니어링에 국한되었던 한계를 극복하기 위해, 오픈 가중치 (Open-weight) LLM을 대상으로 실험을 재현하고, DSPy를 활용한 프롬프트 프로그래밍 (Prompt Programming) 이 문화적 정렬 (Cultural Alignment) 을 개선하는지 검증했습니다.

1. 연구 문제 (Problem)

문화적 편향: LLM 은 학습 데이터의 특성상 서구 (WEIRD: Western, Educated, Industrialized, Rich, Democratic) 중심의 가치관을 내재하고 있어, 특정 국가나 문화권의 타겟 인구와 정렬되지 않은 응답을 생성합니다.
기존 연구의 한계: Tao et al. [42] 는 문화적 정렬을 측정하는 프레임워크를 제시하고 수동 프롬프트 엔지니어링 (Manual Prompt Engineering) 으로 편향을 줄일 수 있음을 보였으나, 이는 폐쇄형 모델 (OpenAI 등) 에만 적용되었고 수동 방식에 의존했습니다.
핵심 질문:
1. Tao et al. 의 findings(서구 중심 편향 및 문화적 조건부 프롬프트의 효과) 가 오픈 소스 LLM 에도 적용되는가?
2. 수동 프롬프트 엔지니어링보다 **프롬프트 프로그래밍 (DSPy 기반)**이 문화적 정렬을 더 효과적으로 달성하는가?

2. 방법론 (Methodology)

가. 문화적 지도 및 벤치마크 구축 (Cultural Map & Benchmark)

데이터: 통합 가치 조사 (Integrated Values Surveys, IVS) 의 세계 가치 조사 (WVS) 및 유럽 가치 연구 (EVS) 데이터를 활용.
지도 생성: 10 가지 설문 지표 (행복, 사회적 신뢰, 권위 등) 를 기반으로 주성분 분석 (PCA) 을 수행하여 Inglehart–Welzel 문화 지도 (Survival vs. Self-Expression, Traditional vs. Secular 축) 를 재현했습니다.
기준점: 각 국가/지역의 인간 응답자 데이터를 기반으로 한 기준 좌표 ( $\nu_{IVS}^c$ ) 를 설정했습니다.

나. 모델 평가 대상 및 프로세스

평가 모델: 5 가지 오픈 가중치 모델 (Llama 3.3 70B, Llama 4 16x17B, Gemma 3 27B, GPT-OSS 20B/120B).
프로젝션: 모델이 IVS 설문 질문에 응답한 내용을 수치화하여 동일한 문화 지도 좌표계 ( $\mathbb{R}^2$ ) 에 투영했습니다.
거리 측정: 모델 응답 좌표와 해당 국가의 인간 기준 좌표 간의 **유클리드 거리 (Euclidean Distance)**를 계산하여 문화적 편향 정도를 정량화했습니다.

다. 세 가지 프롬프트 조건 비교

조건 없음 (No Culture Conditioning): 특정 국가 정체성 없이 일반적인 프롬프트 사용.
수동 문화 프롬프트 엔지니어링 (Manual): "당신은 X 국 시민입니다"와 같은 고정된 프리픽스를 수동으로 추가.
프롬프트 프로그래밍 (DSPy): DSPy 프레임워크를 사용하여 문화적 조건부 지시문 (Instruction) 을 최적화 가능한 프로그램으로 간주하고, 문화적 거리 (Cultural Distance) 를 최소화하는 방향으로 자동 튜닝.
- 옵티마이저: COPRO (Cooperative Prompt Optimization) 및 MIPROv2 사용.
- 제안 모델 (Proposer): 작은 모델 (Llama 3.2 1B) 과 큰 모델 (GPT-OSS 120B) 을 비교 실험.

3. 주요 기여 (Key Contributions)

오픈 소스 모델에 대한 검증: Tao et al. 의 문화적 정렬 프레임워크를 5 가지 주요 오픈 소스 LLM 에 적용하여, 폐쇄형 모델뿐만 아니라 오픈 모델에서도 서구 중심 편향이 존재하고 수동 프롬프트로 개선 가능함을 입증했습니다.
DSPy 기반 프롬프트 프로그래밍 도입: 문화적 정렬을 수동 작업이 아닌 **최적화 문제 (Optimization Problem)**로 재정의하고, DSPy 를 통해 프롬프트를 자동 생성 및 튜닝하는 새로운 접근법을 제시했습니다.
성능 비교 및 분석: 수동 프롬프트 엔지니어링 대비 프롬프트 프로그래밍 (특히 MIPROv2 + 대형 제안 모델) 이 더 낮은 문화적 거리를 달성함을 실험적으로 증명했습니다.
모델 크기와 제안 모델의 영향 분석: 프롬프트 최적화 시 사용하는 제안 모델 (Proposer) 의 규모가 최종 정렬 성능에 중요한 영향을 미친다는 점을 규명했습니다.

4. 실험 결과 (Results)

기본 편향 (Default Bias): 모든 오픈 소스 모델은 특정 국가 조건이 없는 일반 프롬프트에서 서구 (특히 고도의 자기 표현 가치) 문화군에 밀집된 패턴을 보였습니다. 이는 폐쇄형 모델과 유사한 경향입니다.
수동 프롬프트의 효과: "국가 정체성"을 명시하는 수동 프롬프트는 모델 응답을 타겟 국가 방향으로 이동시켜 거리를 줄였으나, 여전히 상당한 편차가 존재했습니다.
DSPy 프롬프트 프로그래밍의 우위:
- MIPROv2 + GPT-OSS 120B (제안 모델): 대부분의 모델 (Llama 4, Gemma 3, GPT-OSS 등) 에서 수동 프롬프트보다 더 큰 거리 감소를 보였습니다.
- Llama 3.3: 다른 모델들에 비해 DSPy 의 개선 폭이 상대적으로 작았으나, 전반적으로 최적화가 유효함을 확인했습니다.
- 국가별 차이: 서구 국가 (미국 등) 에서는 개선 폭이 작았으나, 아프리카 - 이슬람권 (요르단 등) 과 같이 초기 편향이 큰 국가에서는 매우 큰 개선 효과 ( $\Delta$ 거리 감소) 를 보였습니다. 이는 모델이 서구 가치에 이미 가깝기 때문이며, 프롬프트 최적화가 생존 vs 자기 표현 축을 따라 큰 이동을 유도했기 때문입니다.

5. 의의 및 결론 (Significance & Conclusion)

안정적이고 이전 가능한 정렬: 프롬프트 프로그래밍 (DSPy) 은 수동 엔지니어링보다 더 안정적이고 이식 가능한 (Transferable) 문화적 정렬을 제공합니다. 특히 비서구 문화권의 전략적 의사결정 맥락에서 중요합니다.
최적화의 중요성: 문화적 정렬은 단순히 프롬프트에 국가 이름을 추가하는 것을 넘어, 명시적인 목적 함수 (문화적 거리 최소화) 를 가진 프로그래밍적 최적화를 통해 더 효과적으로 달성할 수 있음을 시사합니다.
한계 및 향후 과제:
- 현재 연구는 영어 기반의 단답형 설문 항목에 국한되어 있어, 개방형 생성이나 다중 턴 대화에서의 문화적 편향을 완전히 반영하지 못할 수 있습니다.
- 일부 국가에서는 여전히 편향이 잔존하므로, 국가별 분할 교차 검증 (Country-disaggregated Cross-Validation) 과 같은 강화된 평가 프로토콜이 필요합니다.
- 향후 전략적 문화 (Strategic Culture) 영역 (국가 안보, 군사 전략 등) 에서의 LLM 편향 연구로 확장할 필요가 있습니다.

결론적으로, 이 논문은 오픈 소스 LLM 의 문화적 편향을 정량화하고, DSPy 를 활용한 프롬프트 프로그래밍이 기존 수동 방식보다 우월한 문화적 정렬을 달성할 수 있음을 입증함으로써, 글로벌 맥락에서의 LLM 신뢰성 향상과 정책 지원 도구로서의 활용도를 높이는 데 기여했습니다.