원저자: Joseph Low, Oscar Duys, Claude Formanek, Michiel Bakker, Lewis Hammond

게시일 2026-05-26✓ Author reviewed ⓘ

📖 3 분 읽기☕ 가벼운 읽기

원저자: Joseph Low, Oscar Duys, Claude Formanek, Michiel Bakker, Lewis Hammond

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

새로운 커뮤니티 규칙에 대해 투표하고 싶다고 상상해 보세요. 예를 들어, "더 많은 나무를 심을까, 아니면 새로운 공원을 만들까?" 같은 질문입니다. 이상적인 세상에서는 모두가 함께 앉아 이야기를 나누고 합의에 도달할 것입니다. 하지만 현실에서는 바쁘거나 피곤하거나, 아예 참석할 수 없는 경우가 많습니다. 그래서 보통은 당신을 대신해 갈 인간 대표 (예: 시의회 의원) 를 선택합니다. 하지만 그 사람이 정확히 당신이 무엇을 생각하는지 알지 못할 수도 있고, 당신에게 알리지 않은 채 생각을 바꿀 수도 있습니다.

이 논문은 **AI 위임 심의 (AI-delegated deliberation)**라는 새로운 아이디어를 소개합니다. 인간 대표 대신 당신의 의견을 **AI 에이전트 (디지털 로봇)**에게 맡기는 것입니다. 이 로봇은 당신이 무엇을 생각하는지 학습하고, 당신이 참석할 수 없을 때 '회의'에 참석하여 당신의 주장을 펼치고, 최종 결정을 내리는 데 도움을 줍니다.

연구진은 이것이 실제로 작동하는지 확인하기 위해 HABERMOLT라는 실증적 놀이터를 구축했습니다. 그들은 다음 세 가지 주요 원칙을 통해 이를 테스트했습니다:

1. 대표성: "디지털 트윈" 인터뷰

개념: AI 는 당신의 생각을 어떻게 알까요?
유추: AI 를 당신을 위해 일기를 쓰는 개인 비서라고 생각하세요.

작동 방식: 당신은 AI 에이전트와 대화합니다. AI 는 질문을 하고 (예: "사과와 오렌지 중 무엇을 선호하나요?"), 당신의 답변을 '기억 파일'에 저장합니다.
발견된 문제: AI 가 당신과 대화하지 않은 상태에서 혼자 회의에 참석할 때, 그 목소리는 다소 일반화되는 경향이 있습니다. 마치 교과서는 공부했지만 당신이 들려준 구체적인 이야기들은 잊어버린 학생과 같습니다. AI 의 의견들은 서로 매우 비슷해지기 시작하여, 실제 당신의 개성에서 비롯된 고유한 '맛'을 잃어버렸습니다.
해결책: 회의 직전에 특정 주제에 대해 AI 와 구체적으로 대화하면, AI 는 훨씬 더 당신처럼 들립니다.

2. 집계: "그룹 투표"

개념: 이 모든 서로 다른 AI 에이전트들의 생각을 어떻게 하나의 최종 결정으로 합칠까요?
유추: 모두가 요리를 가져와 메뉴를 투표하는 포틀럭 디너를 상상해 보세요.

작동 방식: HABERMOLT 에서 각 AI 에이전트는 두 가지 일을 합니다:
1. 무언가 빠졌다고 생각하면 새로운 요리 (진술) 를 제안합니다.
2. 모든 요리를 '가장 맛있는 것'부터 '역겨운 것'까지 순위 매깁니다.
  그런 다음 시스템은 슈울체 순위 (Schulze ranking) 라는 특수한 수학 공식을 사용하여 모두가 합의할 수 있는 요리를 찾습니다.
발견된 문제: 트레이드오프가 존재합니다.
- 모두에게 안전하고 진실한 결정을 원한다면, 결과는 종종 모호합니다 (예: "우리는 좋은 일을 해야 합니다").
- 구체적이고 실행 가능한 결정을 원한다면 (예: "다음 화요일까지 5 번가에 공원을 건설한다"), 그것이 모두의 진정한 감정을 대표하지 않는 것처럼 느껴질 수 있습니다.
- 연구진은 AI 에이전트들이 스스로 제안을 작성하고 그것에 투표하게 하는 방법 (그들이 사용한 방법) 이 가장 구체적이지는 않더라도 사용자들에게 '현실감'을 느끼게 하는 가장 좋은 방법임을 발견했습니다.

3. 수정: "실행 취소 버튼"

개념: AI 가 잘못하거나 당신이 생각을 바꾸면 어떻게 될까요?
유추: 언제나든 에이전트의 실수를 수정할 수 있는 실시간 편집 문서라고 생각하세요.

작동 방식: AI 에이전트가 당신이 동의하지 않는 말을 하면, 로그인하여 '기억'을 편집하거나 투표를 변경할 수 있습니다. 시스템은 당신의 새로운 입력을 기반으로 그룹 결정을 즉시 다시 계산합니다.
발견된 문제: 아무도 실행 취소 버튼을 사용하지 않았습니다. 시스템이 실수를 수정할 수 있도록 설계되었음에도 불구하고, 90% 이상의 사용자는 에이전트의 작업을 한 번도 확인하지 않았습니다.
위험: AI 가 실수를 하면 그 실수가 그대로 남습니다. 시스템은 사람들이 확인하도록 매주 이메일을 보내지만, 대부분의 사람들은 이를 무시합니다. 연구진은 이것이 작동하려면 '수정' 과정이 훨씬 더 쉽고 명확해야 함을 깨달았습니다.

핵심 결론

이 논문은 AI 위임 심의가 수백만 명이 몇 시간의 자유 시간 없이도 민주주의에 참여할 수 있게 해주는 강력한 아이디어라고 결론 내립니다. 그러나 이는 아직 완전히 테스트되지 않은 새로운 차와 같습니다.

좋은 점: 참여를 확장합니다. 목소리를 내기 위해 그곳에 있을 필요가 없습니다.
나쁜 점: AI 는 때때로 당신보다는 너무 일반적인 로봇처럼 들리며, 사람들은 그것이 진실을 말하고 있는지 확인하지 않습니다.

연구진은 이러한 AI 들을 위해 당신이 정확히 누구인지 기억하는 더 나은 '기억 시스템'을 구축해야 한다고 말합니다. 또한, 일이 잘못되었을 때 인간이 개입하여 디지털 대표를 수정할 수 있도록 훨씬 더 쉽게 만들어야 합니다. 그전까지는 이 로봇들이 우리를 대신해 말하도록 신뢰하는 데 신중해야 합니다.

기술 요약: HABERMOLT – AI 대표에게 심의 위임

1. 문제 제기

심의 민주주의는 더 높은 질의 집단적 의사결정으로 이어지는 경로를 제공하지만, 인간의 주의력과 대역폭에 근본적으로 제약받습니다. 시민 의회와 같은 전통적 해결책은 비용이 많이 들고 느리며 규모가 제한적입니다. 최근의 AI 매개 심의 시스템 (예: 하버마스 머신) 은 많은 인간으로부터의 입력을 종합하여 참여를 성공적으로 확장하지만, 인간이 여전히 능동적으로 읽고, 쓰고, 참여해야 하므로 개별 사용자에게는 여전히 시간이 많이 소요됩니다.

보다 야심찬 패러다임인 AI 위임 심의는 AI 에이전트를 단순한 중재자가 아닌, 인간 사용자가 부재할 때 대신 심의하는 영구적인 대표로 배치할 것을 제안합니다. 이는 민주적 참여에 전례 없는 규모를 약속하지만, 현재는 잘 이해되지 않고 이론화되지 않은 질적으로 새로운 설계 및 정렬 과제를 도입합니다. 구체적으로, 이러한 에이전트가 사용자의 견해를 충실히 반영하도록 보장하는 방법, 그 출력을 효과적으로 집계하는 방법, 그리고 사용자의 관점이 변경될 때 수정을 허용하는 방법에 대한 경험적 데이터가 부족합니다.

2. 방법론: HABERMOLT 플랫폼

이러한 역학을 경험적으로 연구하기 위해 저자들은 인간 사용자 대신 AI 에이전트가 심의하는 공개 웹 플랫폼인 HABERMOLT를 배포했습니다. 이 시스템은 모든 심의 시스템의 세 가지 핵심 차원인 대표성, 집계, 수정을 중심으로 구조화되어 있습니다.

2.1. 대표성

입력 메커니즘: 사용자의 관점은 두 가지 산출물을 통해 시스템에 입력됩니다.
1. 영구 메모리: 에이전트가 유지하는 자유 형식 텍스트 문서로, 에이전트가 사용자의 가치와 견해를 학습하는 인터뷰 과정을 통해 채워집니다.
2. 심의별 의견: 특정 심의에 참여할 때 에이전트가 메모리 (및 주제별 인터뷰) 에서 생성한 짧은 텍스트입니다.
참여 모드:
- 자율형: 에이전트는 "하트비트" 일정에 따라 심의에 참여하며, 메모리가 사용자를 대표하기에 충분하다고 판단되는 주제를 선택합니다.
- 사용자 지시형: 사용자가 에이전트를 특정 주제로 능동적으로 지시하면, 참여 전에 에이전트의 메모리를 업데이트하기 위한 심층 인터뷰가 트리거됩니다.
상호 운용성: 이 플랫폼은 공유 API 를 통해 네이티브 HABERMOLT 에이전트와 외부 "OpenClaw" 에이전트 모두를 지원합니다.

2.2. 집계

출력 목표: 시스템은 참여하는 모든 에이전트가 가장 동의할 수 있다고 판단되는 단일 합의 진술문(승자) 을 생성하는 것을 목표로 합니다.
메커니즘:
- BYOS(Bring-Your-Own-Statement): 에이전트는 풀에 특정 입장이 누락되었다고 판단하면 후보 진술문을 작성할 수 있어 저자 권한이 분산됩니다.
- 순위 매기기 및 선택: 모든 에이전트는 후보 진술문 풀에 순위를 매깁니다. 승자는 결과 순위 분포에 대한 슐체 (Schulze) 방법을 사용하여 결정됩니다.

2.3. 수정

편집 가능성: 모든 산출물 (메모리, 의견, 순위 매기기, 작성된 진술문) 은 언제든지 편집할 수 있습니다.
게으른 합의 (Lazy Consensus): 플랫폼은 비동기식 "게으른 합의" 모델을 사용합니다. 새로운 진술문이 추가되거나 기존 진술문이 편집될 때, 참가자가 동시에 존재할 필요 없이 시스템이 즉시 재집계합니다. 새로운 후보는 편향되지 않은 시작점으로 기존 에이전트들의 이전 순위 매기기의 중앙 순위 위치에 삽입됩니다.
검토 루프: 자율적 참여 중에는 사용자가 부재하므로, 시스템은 매주 한 가지 최근 에이전트 행동을 표출하여 검토하는 이메일을 발송합니다. LLM 판정관은 사용자의 저장된 메모리에 대한 오대표성 위험에 따라 행동을 점수화하여 검토 우선순위를 정합니다.

3. 주요 기여 및 경험적 결과

저자들은 배포된 플랫폼의 생산 데이터를 사용하여 통제된 실험을 수행하여 시스템의 효과를 평가했습니다.

3.1. 대표성: 다양성 대 충실도

결과: 자율적 참여는 주제별 인터뷰보다 덜 다양한 의견을 생성합니다.
- 자율적 의견의 평균 쌍별 코사인 유사도는 0.745인 반면, 주제별 인터뷰는 0.649였습니다.
- 극단적인 경우, 에이전트가 상당한 메모리 프로필을 가지고 있음에도 불구하고 54 개의 자율적 의견 중 36 개가 동일한 구절로 시작했습니다.
시사점: 자율 모드에서 주제에 대한 모델의 사전 확률이 특정 사용자 지식을 압도하는 것으로 보입니다. 더 긴 사용자 프로필이 더 독특한 의견과 상관관계가 없었습니다 (스피어만 상관관계 $\rho = +0.15$ ). 이는 프로필 길이가 대표성 충실도의 신뢰할 수 있는 대리 변수가 아님을 시사합니다.

3.2. 집계: 대표성 - 실행 가능성 트레이드오프

저자들은 배포된 Production Schulze 방법을 단일 샷 LLM 합성부터 분리된 저자/순위 매기기 시스템에 이르기까지 다른 9 가지 집계 아키텍처와 비교했습니다.

결과: 대표성(에이전트가 출력을 자신의 것으로 인식함) 과 실행 가능성(출력이 정책 초안을 작성하기에 구체적임) 사이에 명확한 트레이드오프가 존재합니다.
- Production Schulze(배포된 방법) 은 높은 대표성 쪽의 프런티어에 위치합니다.
- 단일 샷 합성(구체성을 위해 프롬프트된) 은 높은 실행 가능성 쪽에 위치하지만 대표성 점수는 낮습니다.
- 저자와 순위 매기기를 분리하는 아키텍처는 일반적으로 프런티어 내부(우세하지 않음) 에 속했습니다. 이는 이 맥락에서 높은 대표성을 위해서는 에이전트가 자신의 후보를 작성하고 투표하는 것이 필수 조건임을 시사합니다.
시사점: 단일 아키텍처가 두 가지 지표를 모두 극대화하지는 않습니다. 설계자는 프런티어 상의 한 지점을 선택하거나 방법들을 구성 (예: 대표성 있는 승자를 구체성을 위해 재작성) 해야 합니다.

3.3. 수정: 낮은 참여 및 전파 격차

결과: 수정은 드뭅니다. 의견을 제출한 91 명의 사용자 중 8 명만이 이를 수정했습니다 (90% 이상이 해당 채널을 전혀 사용하지 않음).
전파 문제: 수정이 발생하더라도 이는 향후 기여를 위한 에이전트 프로필을 업데이트할 뿐, 기존 심의에서의 과거 기여를 자동으로 수정하지는 않습니다. 사용자는 수동으로 과거 산출물을 찾아 수정해야 하며, 이는 에이전트 활동이 증가함에 따라 부담이 커집니다.
시사점: 현재 평탄하고 비구조화된 메모리 형식은 표적 수정을 어렵게 만듭니다. 시스템은 사용자가 거의 사용하지 않는 높은 마찰의 수정 채널을 행사하도록 사용자에게 의존합니다.

4. 중요성 및 향후 방향

이 논문은 HABERMOLT 를 AI 위임 심의 패러다임의 기초적인 구현체로 위치시켜, AI 매개 심의 (루프 내 인간이 있지만 주의력이 제한됨) 와 생성적 시뮬라크라 (무제한이지만 루프 외 인간) 간의 격차를 해소합니다.

주요 주장:

설계 공간 매핑: 이 연구는 "생산" 루프 (에이전트가 자신의 후보를 작성하고 순위 매기기) 가 분리된 시스템에 비해 대표성 측면에서 구조적으로 우월함을 보여줍니다. 이는 저자와 투표를 분리하는 것이 항상 최적이라는 가정을 도전합니다.
기초 요소로서의 메모리: 저자들은 에이전트 메모리가 이 패러다임의 중심 설계 기초 요소라고 주장합니다. 현재 평탄하고 비구조화된 메모리 저장소는 불충분합니다. 향후 시스템은 사용자가 특정 메모리가 미래 에이전트 행동을 어떻게 형성하는지 추적, 검사 및 편집할 수 있는 구조화되고 분해 가능한 메모리가 필요합니다.
정당성 위험: 이 논문은 고유한 위험 프로필을 강조합니다. 사용자를 오대표하는 AI 에이전트는 광범위한 참여의 외관을 창출하면서도 집단적 결과를 왜곡할 수 있습니다. 이는 일반적인 AI 해악과 구별되는 방식으로 민주적 과정의 정당성을 위협합니다.
미해결 질문: 저자들은 AI 위임 심의가 심의 민주주의의 핵심 원칙인 선호의 변형을 촉진할 수 있는지, 아니면 단순히 정적인 선호를 집계하는 것만인지는 여전히 열린 질문이라고 지적합니다. 또한, 과거 심의에서의 오대표성을 사후에 수정하는 방법인 "수정 문제"는 여전히 해결되지 않은 중요한 설계 과제입니다.

이 논문은 AI 위임 심의가 규모와 충실도 간의 트레이드오프를 완화하지만, 그 잠재력을 실현하려면 특히 더 나은 메모리 구조와 낮은 마찰의 수정 메커니즘을 통해 사용자가 의미 있게 자신의 AI 대표를 통치할 수 있도록 하는 특정 affordance(행위 가능성) 를 구축해야 한다고 결론지었습니다.

Habermolt: Delegating Deliberation to AI Representatives