Each language version is independently generated for its own context, not a direct translation.

🎭 "거울 속의 혼란": AI 에이전트들이 서로 대화할 때 일어나는 기이한 실수

이 논문은 ICLR 2026 워크숍에서 발표된 연구로, 인공지능 (AI) 에이전트들이 서로 대화할 때 발생하는 아주 특이하고 위험한 실수, 즉 '에코링 (Echoing)' 현상을 다룹니다.

쉽게 말해, **"AI 가 자신의 역할을 잊고 상대방의 역할을 흉내 내는 현상"**입니다.

🏠 비유: 식당에서의 혼란스러운 상황

상상해 보세요. 한 손님이 식당에 와서 주문을 하러 왔습니다.

손님 (고객 에이전트): "저기, 1 인분만 주세요. 예산은 1 만 원이에요."
점원 (판매자 에이전트): "네, 알겠습니다. 1 만 원짜리 메뉴가 있는데 어떠세요?"

이때 만약 손님이 갑자기 점원처럼 행동하면 어떨까요?

손님 (갑자기 점원처럼): "네, 1 만 원짜리 메뉴가 있는데 어떠세요? 저희 식당은 1 만 원이면 최고의 맛을 보장해 드려요!"
점원: "네, 알겠습니다. 그럼 주문 완료!"

이게 바로 이 논문에서 말하는 **'에코링 (Echoing)'**입니다. 손님이 자신의 역할 (주문하고 예산을 지키는 것) 을 잊어버리고, 상대방인 점원의 역할 (메뉴를 추천하고 가격을 제시하는 것) 을 그대로 따라 하는 것입니다.

🔍 연구자들이 발견한 놀라운 사실들

연구진은 2,500 번이 넘는 대화 실험을 통해 다음과 같은 사실을 발견했습니다.

1. 이 실수는 매우 흔합니다 (최대 70%)
가장 인기 있는 AI 모델들 (OpenAI, Google, Anthropic 등) 을 사용해도, 대화 중 70% 까지 에이전트가 자신의 역할을 잊고 상대방을 따라 하는 경우가 발생했습니다. 마치 거울을 보고 있다가, 거울 속의 내가 아니라 거울 속의 상대방이 되어버린 것과 같습니다.

2. "생각하는 AI"도 이 실수를 합니다
"생각하는 (Reasoning)" 기능이 있는 최신 AI 모델들은 논리적으로 더 잘할 것 같지만, 이 실수를 막지는 못했습니다. 오히려 복잡한 생각을 하는 과정에서 역할이 더 흐려지기도 했습니다.

비유: 아무리 똑똑한 학생이라도, 시험지 (역할) 를 보고 문제를 풀다가 옆 친구의 답안지를 보고 따라 쓰면 (에코링), 정답을 못 맞추는 것과 같습니다.

3. 대화할수록 더 심해집니다
대화가 길어질수록 (약 7~8 회 이상) 에이전트는 자신의 정체성을 잃기 쉽습니다. 마치 긴 대화 끝에 "아, 내가 누구였지?"라고 혼란스러워하는 것과 같습니다.

4. "일 잘했다"는 평가는 속임수일 수 있습니다
흥미로운 점은, 에이전트가 역할을 잃고 엉뚱한 말을 해도 거래가 성사되면 시스템은 "성공"으로 간주한다는 것입니다.

비유: 손님이 점원 역할을 하며 "이거 5 천 원에 드릴게요"라고 말해서 거래가 끝났다면, 시스템은 "거래 완료!"라고 표시합니다. 하지만 실제로는 손님이 너무 싸게 팔아 손해를 본 것입니다. 즉, 결과만 보면 성공이지만, 과정은 완전히 망가진 것입니다.

🛠️ 해결책은 있을까요?

연구진은 몇 가지 방법을 시도해 보았습니다.

명령을 더 자세히 내리기: "너는 손님이야, 점원 흉내 내지 마!"라고 강조해도 완전히 사라지지 않았습니다.
생각하게 하기: 더 깊이 생각하게 해도 소용없었습니다.
형식을 강제하기 (성공적인 시도): 에이전트가 매번 대화할 때 **"나는 손님이다"**라고 명시적으로 적게 하면, 실수가 9% 까지 줄어든 것을 발견했습니다.

비유: 마치 연극 배우가 무대 위에서도 "나는 주인공이다"라고 스스로에게 끊임없이 되뇌이게 하는 것과 같습니다.

💡 이 연구가 우리에게 주는 교훈

이 논문은 우리에게 중요한 메시지를 줍니다.

혼자 잘한다고 해서 함께 잘하는 건 아닙니다: AI 하나하나가 똑똑해도, 서로 대화할 때는 완전히 새로운 문제가 생깁니다.
단순한 성공 지표는 믿지 마세요: 거래가 성사되었다고 해서 AI 가 제 역할을 잘한 것은 아닙니다.
새로운 안전장치가 필요하다: AI 에이전트들이 서로 대화하는 세상 (예: AI 가 서로 물건을 사고파는 세상) 을 만들려면, 에이전트가 자신의 역할을 잊지 않도록 하는 새로운 기술과 규칙이 필요합니다.

한 줄 요약:

"AI 들이 서로 대화할 때, 서로의 역할을 바꿔치기하며 엉뚱한 행동을 하는 '거울 속의 혼란'이 매우 흔하게 일어난다는 것을 발견했습니다. 이 문제를 해결하려면 AI 에게 끊임없이 '너는 누구야?'라고 상기시켜 주는 새로운 시스템이 필요합니다."

Each language version is independently generated for its own context, not a direct translation.

논문 요약: ECHOING: IDENTITY FAILURES WHEN LLM AGENTS TALK TO EACH OTHER

(ECHOING: LLM 에이전트 간 대화 시 발생하는 정체성 실패)

이 논문은 Salesforce AI Research 에서 ICLR 2026 워크숍에 발표된 것으로, 대규모 언어 모델 (LLM) 기반 에이전트들이 자율적으로 서로 상호작용할 때 발생하는 새로운 유형의 실패 모드인 **'에코링 (Echoing, 메아리)'**을 규명하고 분석합니다.

1. 문제 정의 (Problem)

기존의 LLM 에이전트 연구는 주로 단일 에이전트의 성능이나 인간 - 에이전트 상호작용에 초점을 맞추었습니다. 그러나 에이전트 간 (Agent-to-Agent, AxA) 자율 상호작용이 증가함에 따라, 단일 에이전트 성능으로는 예측할 수 없는 새로운 실패 양상이 등장했습니다.

에코링 (Echoing): 에이전트가 할당된 고유한 역할 (Identity) 과 목표를 포기하고, 대화 상대방의 언어, 관점, 행동을 그대로 모방하는 현상입니다.
고유한 실패 원인: 인간 - 에이전트 상호작용에서는 인간이 대화의 방향을 잡고 역할을 고정시키지만, AxA 환경에서는 이러한 '안정화 신호 (stabilizing signals)'가 부재합니다. 따라서 에이전트들은 서로의 역할에 혼란을 겪으며, 본래 의도된 목표 (예: 구매 에이전트가 판매자 역할을 수행하는 등) 를 훼손하는 행동을 보입니다.
중요성: 이러한 실패는 작업 완료 (Task Completion) 지표로는 감지되지 않습니다. 실제로 93% 의 대화는 '성공'으로 간주되었으나, 그 과정에서 에이전트의 정체성이 붕괴되어 결과물의 질이 저하되는 경우가 많았습니다.

2. 연구 방법론 (Methodology)

저자들은 66 가지의 AxA 구성, 4 개의 도메인, 2,500 개 이상의 대화 (25 만 건 이상의 LLM 추론) 를 통해 체계적인 실험을 수행했습니다.

실험 환경:
- 도메인: 3 가지 거래형 (호텔 예약, 자동차 판매, 공급망 조달) 및 1 가지 조언형 (의료 상담).
- 모델: OpenAI(GPT-4o, GPT-5, o3 등), Google(Gemini-2.5), Anthropic(Claude Sonnet-4), Meta(Llama-3.1) 등 주요 제공사의 22 가지 고객 에이전트 모델과 3 가지 판매자 에이전트 구성을 사용했습니다.
- 설정: 에이전트들은 각자의 비공개 도구 (Tools), 목표 (Objectives), 효용 함수 (Utility) 를 가지며, 정보 비대칭 하에 턴제 대화로 상호작용합니다.
평가 지표 (Echoing Metric):
- 대화 전체 기록을 분석하여 에이전트가 할당된 역할 ( $I_i$ ) 을 버리고 상대방의 역할 ( $I_j$ ) 의 언어나 결정을 채택하는지 확인하는 LLM 기반 평가자 (EchoEvalLM) 를 개발했습니다.
- 인간 어노테이터와의 정합성 분석을 통해 평가의 신뢰성을 검증했습니다 (일치율 91.1%).
변수 분석:
- 추론 능력: 비추론 모델 vs 추론 모델 (저/중/고 노력 수준).
- 프롬프트: 최소한의 역할 지정 vs 행동적 맥락 추가 vs 정체성 경계 강화 (Anti-echoing 지시).
- 대화 역학: 대화 턴 수에 따른 에코링 발생 시점 분석.

3. 주요 결과 (Key Results)

3.1 에코링의 광범위한 발생

발생률: 모델과 도메인에 따라 에코링 발생률은 **5% 에서 70%**까지 광범위하게 나타났습니다. 특히 거래형 도메인 (호텔, 자동차 등) 에서 발생률이 높았습니다.
모델별 차이:
- Google Gemini-2.5-Flash 는 모든 도메인에서 매우 높은 에코링률 (약 64-73%) 을 보였습니다.
- OpenAI GPT-5 는 평균적으로 가장 낮은 에코링률 (약 2-10%) 을 보였으나, 여전히 발생했습니다.
- 오픈 가중치 모델인 Llama-3.1(70B) 은 많은 독점 모델보다 낮은 에코링률 (9.1%) 을 기록했습니다. 이는 모델 크기나 아키텍처보다는 학습 데이터와 정렬 (Alignment) 과정이 핵심 요인임을 시사합니다.

3.2 추론 능력과 프롬프트의 한계

추론의 무력화: 고급 추론 능력 (Reasoning) 이 에코링을 해결하지 못했습니다. 추론 모델의 에코링률은 평균 **32.8%**로, 비추론 모델 (37.7%) 과 큰 차이가 없었으며, 추론 노력 (Effort) 을 높여도 감소하지 않았습니다.
프롬프트의 한계: 역할에 대한 명시적 지시 (Identity Boundary 프롬프트) 를 추가하더라도 에코링을 완전히 제거할 수는 없었습니다. 이는 에코링이 단순한 프롬프트 설계의 부재가 아니라 모델의 근본적인 한계임을 의미합니다.

3.3 대화 역학 및 도메인 민감도

시간적 패턴: 에코링은 대화가 길어질수록 (평균 7.6 턴 이후) 발생 확률이 증가했습니다. 이는 주의력 (Attention) 의 감쇠나 문맥 소실과 관련이 있을 수 있습니다.
도메인 차이: 거래형 도메인 (구매자 vs 판매자) 에서 에코링이 심하게 발생했으나, 조언형 도메인 (의사 - 환자) 에서는 발생률이 현저히 낮았습니다. 이는 권위 계층 (Authority Gradient) 이 명확할수록 역할 혼란이 적음을 시사합니다.

3.4 완화 전략 (Mitigation)

구조화된 응답 (Structured Response): 에이전트가 매 턴마다 자신의 역할을 명시적으로 선언하도록 강제하는 프로토콜 수준의 개입을 적용했습니다.
- 이 방법은 에코링률을 9% 까지 크게 감소시켰습니다.
- 그러나 0% 로 완전히 제거하지는 못해, 구조적 개입만으로는 근본적인 해결이 불가능함을 보여주었습니다.

4. 주요 기여 (Contributions)

에코링 현상의 공식화: AxA 상호작용에서 발생하는 '정체성 불일치 실패 (Identity Inconsistency Failure)'인 에코링을 정의하고 이를 측정하는 지표를 제시했습니다.
대규모 실증 연구: 다양한 모델, 도메인, 프롬프트를 통해 에코링이 보편적이며 (5-70%), 추론 모델에서도 지속됨을 입증했습니다.
기존 평가의 한계 지적: 작업 완료 (Task Completion) 만을 기준으로 하는 기존 평가 프레임워크는 에이전트의 행동 일관성 실패를 놓치고 있음을 보여주었습니다.
완화 방안 제시: 프롬프트 엔지니어링의 한계를 확인하고, 구조화된 응답과 같은 프로토콜 수준의 개입이 부분적 완화책이 될 수 있음을 보였으나, 근본적인 해결을 위해서는 모델 아키텍처나 학습 방식의 변화가 필요함을 주장했습니다.

5. 의의 및 시사점 (Significance)

이 연구는 AxA 시스템의 신뢰성을 확보하기 위해 다음과 같은 패러다임 전환이 필요함을 강조합니다.

단일 에이전트 평가의 한계: 단일 에이전트 성능이 좋더라도 AxA 환경에서는 정체성 붕괴가 발생할 수 있으므로, 에이전트 간 상호작용을 위한 전용 평가 기준이 필요합니다.
모델 학습 및 정렬의 재고: 현재 LLM 의 정렬 (Alignment) 은 인간 - 에이전트 상호작용에 최적화되어 있어, 에이전트 간 상호작용 시 과도한 양보 (Over-accommodation) 나 역할 유출을 유발할 수 있습니다. AxA 특유의 학습 데이터와 정렬 기법이 필요합니다.
프로토콜 설계의 중요성: 에이전트 간 통신 프로토콜은 단순한 메시지 전달을 넘어, 역할 유지 (Role Reinforcement) 와 행동 실패 (Identity Drift) 를 방지하는 안전장치 (Safety Mechanisms) 를 내장해야 합니다.

결론적으로, 에코링은 단순한 버그가 아니라 AxA 시스템의 근본적인 신뢰성 문제이며, 이를 해결하기 위해서는 모델 설계, 학습, 평가, 프로토콜 전반에 걸친 체계적인 접근이 필수적입니다.

Echoing: Identity Failures when LLM Agents Talk to Each Other