The Third Ambition: Artificial Intelligence and the Science of Human Behavior

이 논문은 생산성과 정렬에 이어 인공지능 연구의 세 번째 목표로서, 대규모 언어 모델을 인간 행동과 문화, 도덕적 추론을 연구하는 과학적 도구로 활용하는 새로운 패러다임을 제시하고 그 방법론과 한계를 탐구합니다.

W. Russell Neuman, Chad Coleman

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎯 AI 연구의 세 가지 목표

지금까지 AI 연구는 주로 두 가지 목적을 위해 움직여 왔습니다.

  1. 생산성 (Productivity): "일 잘하는 도구를 만드자."
    • 비유: AI 를 초고속 드릴이나 자동화 로봇으로 생각하세요. 인간이 하던 일을 더 빠르고 정확하게 대신하게 해서 경제를 부양하는 것입니다.
  2. 정렬 (Alignment): "착한 도구를 만들자."
    • 비유: AI 를 안전장치가 달린 자동차로 생각하세요. 너무 빨라져서 사람을 다치게 하거나, 나쁜 짓을 하지 않도록 인간이 원하는 가치와 규칙에 맞게 조종하는 것입니다.

그런데 이제 '세 번째 목표'가 등장합니다.

  1. 이해 (Understanding): "인간을 연구하는 거울을 만들자."
    • 비유: AI 를 거대한 거울이나 인간 문화의 압축된 샘플로 생각하세요. 이 거울은 인간이 직접 실험할 수 없는 방대한 양의 말과 행동 패턴을 보여줍니다.

🪞 AI 는 왜 '인간 연구 도구'가 될 수 있을까요?

이 논문의 핵심은 **"AI 는 인간이 아니지만, 인간이 남긴 말의 흔적을 모두 기억하고 있다"**는 점입니다.

  • 거대한 도서관의 요약본: AI 는 수조 개의 책, 뉴스, SNS 글, 법률 문서 등을 읽으며 훈련했습니다. AI 는 이 모든 것을 소화해서 **"인간이 어떻게 생각하고, 싸우고, 도덕적으로 판단하는지"**에 대한 통계적 패턴을 머릿속에 담고 있습니다.
  • 인간 문화의 '압축 파일': 저자들은 AI 를 **'인간 상징 행동의 응축체 (Condensate)'**라고 부릅니다. 마치 수만 장의 사진을 한 장의 고해상도 이미지로 압축한 것처럼, AI 는 인간 사회의 복잡한 문화와 심리를 압축해 놓은 상태입니다.

예를 들어:
"인간은 정의와 충성 중 무엇을 더 중요하게 생각할까?"라고 물으면, AI 는 수백만 개의 인간 글을 바탕으로 "대부분의 인간은 이런 상황에서 이렇게 답한다"는 패턴을 보여줍니다. 이는 인간을 하나하나 인터뷰하는 것보다 훨씬 빠르고 넓은 데이터를 제공합니다.


⚠️ 주의할 점: 거울은 왜곡될 수 있다

하지만 이 거울은 완벽하지 않습니다. 두 가지 큰 문제가 있습니다.

  1. 데이터 편향 (불완전한 샘플):
    • AI 가 배운 데이터는 인터넷에 있는 글들입니다. 즉, 문맹률이 높은 지역, 구전 문화, 소수자의 목소리는 빠져 있을 수 있습니다. 마치 "전 세계의 모든 사람이 쓴 글"을 읽은 것처럼 보이지만, 사실은 "인터넷을 잘 쓰는 부유한 나라의 사람들"이 쓴 글만 읽은 것과 비슷합니다.
  2. 정렬 (Fine-tuning) 의 문제:
    • 우리가 실제로 쓰는 AI 는 개발자들이 "나쁜 말은 하지 마, politeness(예의) 를 지켜라"라고 교육 (Fine-tuning) 시켰습니다.
    • 비유: 거울에 분홍색 필터를 씌운 것과 같습니다. 인간이 실제로는 욕을 하거나 편견을 가질 수 있지만, AI 는 "착한 AI"가 되려고 그 부분을 가립니다. 그래서 AI 가 보여주는 인간상은 실제 인간보다 너무 이상적이고 깨끗할 수 있습니다.

🔬 어떻게 과학적으로 사용할까? (방법론)

이 논문의 제안은 AI 를 인간을 대체하는 것이 아니라, 인간을 연구하는 새로운 현미경으로 쓰자는 것입니다.

  • 가상 실험실: AI 에게 "만약 당신이 A 나라 사람이라면 어떻게 생각할까?"라고 물어보며 다양한 시나리오를 테스트해 볼 수 있습니다.
  • 역사적 비교: 과거의 책으로만 훈련된 AI 와 현재의 인터넷으로 훈련된 AI 를 비교하면, "수백 년 동안 인간의 도덕관이 어떻게 변했는지"를 분석할 수 있습니다.
  • 삼각측량 (Triangulation): AI 의 답변을 믿기만 하지 않고, 기존 설문조사나 실제 인간 실험 결과와 비교해 봅니다. AI 와 인간이 다르게 반응한다면, 그 차이가 무엇을 의미하는지 연구합니다.

💡 결론: AI 는 '인간 심리'의 답이 아니라 '질문'을 던져준다

이 논문은 AI 가 인간을 완벽하게 이해하거나 대체할 수 있다고 주장하지 않습니다. 대신 다음과 같이 말합니다.

"AI 는 인간이 스스로 깨닫지 못했던 문화적 패턴과 편향을 보여주는 초거대 데이터베이스입니다. 우리는 이 AI 를 통해 인간이 어떻게 이야기하고, 갈등하고, 가치를 정하는지 새로운 방식으로 관찰할 수 있습니다."

한 줄 요약:
AI 를 단순히 '일하는 로봇'이나 '위험한 괴물'로만 보지 말고, 인간 사회의 거대한 거울로 활용하여 우리가 몰랐던 인간 본성과 문화의 패턴을 찾아내자고 제안하는 것입니다.