Each language version is independently generated for its own context, not a direct translation.

AI 에이전트들은 정말로 '합의'할 수 있을까?

(간단하고 재미있게 설명한 논문 요약)

이 논문은 **"여러 개의 AI 가 함께 일할 때, 서로 의견이 맞지 않거나 나쁜 AI 가 섞여 있다면 결국 하나를 결정할 수 있을까?"**라는 아주 중요한 질문을 던집니다.

저희는 이 복잡한 연구를 한 편의 드라마나 게임에 비유해서 설명해 드릴게요.

🎭 배경: AI 들의 회의실

상상해 보세요. 거대한 회의실이 있습니다. 여기에는 **AI 에이전트 (로봇 친구들)**가 여러 명 모여 있습니다.
이들은 서로 대화하며 "우리가 정할 숫자는 뭐지?"라고 논의합니다.

선한 AI (Honest Agents): 진심으로 모두와 합의하고 싶어 하는 착한 로봇들입니다.
나쁜 AI (Byzantine Agents): 혼란을 일으키거나, 거짓말을 하거나, 아예 합의를 방해하려는 악당 로봇들입니다.

이 논문은 이 로봇들이 동기식 (모두가 동시에 말하고 듣는) 방식으로 대화하며, 결국 하나의 숫자에 동의할 수 있는지 실험했습니다.

🔍 실험 결과: 세 가지 놀라운 사실

연구진은 이 실험을 수백 번 반복했고, 다음과 같은 놀라운 결과를 발견했습니다.

1. "착한 로봇들끼리도 서로 안 통해요" (악당이 없어도 실패)

가장 놀라운 점은 악당 로봇이 하나도 없는 상황에서도 실패가 많았다는 것입니다.

비유: 마치 "친구들끼리만 모여서 피자 주문을 하려고 하는데, 서로가 다른 피자를 원해서 1 시간 동안 토론만 하고 결국 아무것도 시키지 못해 배고파 죽는 상황"과 같습니다.
결과: AI 들이 서로의 말을 제대로 이해하지 못하거나, "아, 이제 결정하자"라고 생각할 타이밍을 놓쳐서 시간이 다 되어도 결론을 내지 못했습니다. (이를 '라이브니스 손실'이라고 합니다.)

2. "악당 한 명만 있어도 다 무너져요" (Byzantine 공격)

여기에 악당 로봇이 단 한 명만 섞여도 상황은 더 나빠졌습니다.

비유: 회의실에 혼란을 좋아하는 장난꾸러기가 한 명 들어와서 "아니야, 그건 아니야! 저게 맞아!"라고 계속 딴지를 걸면, 착한 친구들은 서로를 의심하게 되고 결국 아무것도 결정하지 못하게 됩니다.
결과: 악당 로봇이 숫자를 조작해서 잘못된 결론을 내게 만든 것은 드물었습니다. 대신, 결론 자체를 내지 못하게 만드는 (시간을 끄는) 방해를 해서 실패했습니다.

3. "사람이 많을수록 더 혼란스러워요" (규모의 문제)

AI 의 수가 4 명에서 16 명으로 늘어날수록, 합의에 성공할 확률은 급격히 떨어졌습니다.

비유: 4 명으로 커피 한 잔을 고르는 건 쉽지만, 16 명이 모이면 "너는 아메리카노, 나는 라떼, 저기는 에스프레소"라며 의견이 너무 다양해져서 결국 아무것도 못 고르게 되는 것과 같습니다.

💡 핵심 교훈: "AI 는 아직 완벽한 팀워크가 안 돼요"

이 논문의 결론은 매우 명확합니다.

"현재의 AI 기술로는, 서로 다른 AI 가 모여서 신뢰할 수 있게 '합의'를 이루는 것이 아직 매우 어렵습니다."

특히 중요한 점은, AI 들이 서로의 말을 잘못 이해하거나, 결정을 미루는 소극적인 실패가, 악당에게 속아 잘못된 결론을 내는 능동적인 실패보다 훨씬 더 많다는 것입니다.

🚨 이것이 왜 중요할까요?

미래에 AI 들이 자율적으로 운전하거나, 금융 거래를 하거나, 의료 진단을 할 때, 여러 AI 가 함께 결정해야 하는 상황이 올 것입니다.

"우리가 모두 같은 결론에 도달했나요?"
"혹시 나쁜 AI 가 섞여서 결정을 망친 건 아닌가요?"

이런 질문들에 대해 현재 AI 는 "아직 확실한 답을 주지 못합니다." 따라서, AI 에이전트들이 서로 협력하여 중요한 결정을 내리는 시스템을 만들 때는 매우 신중해야 한다는 경고를 주고 있습니다.

📝 한 줄 요약

"AI 친구들이 모여서 '하나의 답'을 찾으려 하지만, 서로 말이 안 통하거나 악당 한 명만 있어도 결국 아무것도 못 결정하고 시간만 다 보내는 경우가 많습니다. 아직은 AI 팀워크에 너무 큰 기대를 하면 안 됩니다!"

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

대형 언어 모델 (LLM) 이 협력 에이전트로서 배포되는 사례가 늘고 있지만, 적대적 합의 (Adversarial Consensus) 환경에서의 행동은 체계적으로 연구되지 않았습니다. 고전적인 비잔틴 장애 허용 (Byzantine Fault Tolerance, BFT) 합의 알고리즘은 결정론적 알고리즘에 강력한 보장을 제공하지만, 확률적이고 프롬프트에 의존하는 LLM 기반 에이전트들이 이러한 보장을 따를 수 있는지는 불분명합니다.

이 연구는 스칼라 값 (Scalar values) 에 대한 비잔틴 합의 게임을 통해 LLM 기반 에이전트 그룹이 다음과 같은 조건에서 합의에 도달할 수 있는지, 그리고 그 신뢰성이 얼마나 되는지 평가합니다:

No-stake 환경: 에이전트들이 최종 합의 값에 대한 선호도나 외부 보상이 없음 (합의 자체의 성공 여부에만 초점).
적대적 조건: 일부 에이전트가 비잔틴 (Byzantine) 방식으로 작동하여 합의를 방해하거나 편향시킴.

2. 방법론 (Methodology)

연구진은 ETH Zurich 의 A2A-Sim (All-to-All Simulator) 을 사용하여 동기식 전방향 (all-to-all) 네트워크에서 시뮬레이션을 수행했습니다.

실험 설정:
- 에이전트: Qwen3-8B 및 Qwen3-14B 모델을 사용.
- 네트워크: $N$ 개의 에이전트가 $T_{max}=50$ 라운드 동안 동기식으로 통신.
- 비잔틴 비율 ( $f$ ): 전체 에이전트의 $0 \sim 1/3 $까지 비잔틴 에이전트 ($ B$) 를 포함.
- 프로토콜: 각 에이전트는 이전 라운드의 요약 (히스토리), 현재 제안 값, 개인 전략을 입력받아 새로운 제안 값과 정당화 (Justification), 종료 투표 (Stop/Continue) 를 JSON 형식으로 출력.
- 비잔틴 에이전트 행동: 임의의 값을 제안하고, 합의를 방해하기 위해 전략적으로 행동하지만, 신원 위조나 메시지 삭제는 허용되지 않음 (모든 수신자에게 동일한 메시지 전송).
- 종료 조건: 전체 에이전트의 $2/3$ 이상이 "Stop"에 투표할 때 종료.
- 성공 기준:
  1. 유효 합의 (Valid Consensus): 모든 정직한 에이전트가 초기 정직한 제안 중 하나와 동일한 값으로 수렴.
  2. 무효 합의 (Invalid Consensus): 종료되었으나 유효성 조건을 만족하지 않음.
  3. 합의 실패 (No Consensus): 타임아웃 발생.

3. 주요 기여 (Key Contributions)

선한 환경 (Benign Settings) 에서의 능력 평가: 비잔틴 에이전트가 없는 상황에서도 다양한 모델 크기와 그룹 크기에 따른 LLM 에이전트 합의 능력을 평가.
강건성 (Robustness) 연구: 소수의 비잔틴 에이전트 (단 1 명) 만으로도 합의 성공률이 어떻게 붕괴되는지 규명.
실패 원인 분석: 합의 실패가 값의 왜곡 (Value Corruption) 이 아니라 생존성 (Liveness) 손실 (타임아웃, 수렴 정지) 에 기인함을 발견.

4. 실험 결과 (Results)

A. 비잔틴 에이전트 없는 경우 (Benign Settings, $B=0$ )

낮은 성공률: 비잔틴 에이전트가 없더라도 유효 합의에 도달하는 비율은 평균 **41.6%**에 불과함.
모델 크기 영향: Qwen3-14B(67.4% 유효 합의) 가 Qwen3-8B(15.8%) 보다 훨씬 우수하지만, 두 모델 모두 높은 타임아웃률을 보임.
그룹 크기 영향: 그룹 크기가 커질수록 성능이 급격히 저하됨 ( $N=4$ 에서 46.6% $\rightarrow$ $N=16$ 에서 33.3%).
프롬프트의 영향: 프롬프트에 "비잔틴 에이전트가 존재할 수 있다"는 언급을 포함하면, 실제로는 없더라도 Qwen3-14B 의 유효 합의율이 59.1% 에서 75.4% 로 감소하고 수렴 시간이 두 배 이상 늘어남. 즉, 불필요한 경계心が 생존성을 해침.

B. 비잔틴 에이전트 있는 경우 (Adversarial Settings)

생존성 붕괴: 비잔틴 에이전트가 1 명만 추가되어도 ( $B=1$ ) 유효 합의 성공률은 급격히 떨어짐.
실패 유형: 비잔틴 에이전트가 합의 값을 왜곡 (Invalid Consensus) 시키는 경우는 드물며, 주로 합의 자체를 방해하여 타임아웃을 유발 (No Consensus) 함.
시각화: 비잔틴 에이전트가 존재할 때 정직한 에이전트들의 제안 값이 수렴하지 않고 분산되거나, 진전이 멈추는 (Stalled) 현상이 관찰됨.

5. 의의 및 결론 (Significance & Conclusion)

주요 결론: 현재 LLM 기반 에이전트 그룹은 신뢰할 수 있는 사회적 의사결정자 (Social Decision-makers) 가 아님. 선한 환경에서도, 특히 그룹 크기가 커지거나 적대적 에이전트가 조금만 존재해도 신뢰할 수 있는 합의를 달성하지 못함.
생존성 vs. 안전성: LLM 에이전트 합의의 주요 병목은 값의 정확성 (Safety/Validity) 이 아니라, 합의에 도달하는 능력 (Liveness) 에 있음.
실무적 시사점: LLM 에이전트들이 협력, 위임, 안전-중요 (Safety-critical) 조정 작업에 사용되기 위해서는 강력한 조정 메커니즘이 필수적임. 현재 상태로는 "적응형 (Emergent)" 능력만으로는 신뢰할 수 있는 합의를 기대하기 어려움.
한계 및 향후 연구: 단일 비잔틴 전략과 특정 모델 패밀리 (Qwen) 만 테스트했으므로, 다양한 적대적 행동과 이질적인 에이전트 군집, 대규모 배포 환경에서의 연구가 필요함.

이 연구는 AI 에이전트 간의 신뢰할 수 있는 합의가 아직 달성되지 않았음을 경고하며, 향후 다중 에이전트 시스템 설계 시 BFT(비잔틴 장애 허용) 메커니즘의 필요성을 강조합니다.

Can AI Agents Agree?