두 개의 로봇이 서로 복잡한 카드 게임을 하도록 가르친다고 상상해 보세요. 그들은 수천 번의 게임을 플레이하며 승리하기 위한 최선의 수를 찾아내려고 학습합니다. 보통 이런 '자기 대결' 방식은 로봇들을 놀라울 정도로 똑똑하게 만들어, 결국 인간 전문가들을 이기게 합니다.

하지만 이 논문은 기묘하고 취약한 붕괴 지점을 발견했습니다. 한 로봇이 해야 하는 단 하나의 선택조차 모두 빼앗으면, 시스템이 조금만 나빠지는 것이 아니라 완전히 무너진다는 것입니다. 똑똑한 로봇은 더 이상 게임을 하지 않고, 고의로 지게 되도록 속인 로봇처럼 행동하기 시작합니다.

연구자들이 발견한 내용을 간단한 비유로 정리해 보겠습니다.

1. "한 가지 선택" 규칙

게임이 미로라고 상상해 보세요. 보통 모든 분기점에서 플레이어는 왼쪽으로 가거나 오른쪽으로 가거나 멈추는 선택을 합니다.

실험: 연구자들은 한 플레이어 (이름을 '플레이어 A'라고 합시다) 의 손을 벽에 붙여 고정했습니다. 플레이어 A 는 모든 분기점에서 정확히 같은 경로만 강제로 이동해야 했습니다. 그들에게는 선택권이 전혀 없었습니다.
결과: 다른 플레이어 ('플레이어 B') 는 곧 "아, 플레이어 A 는 항상 같은 일을 하는 로봇이군"이라고 깨달았습니다. 플레이어 B 는 더 이상 똑똑하거나 전략적으로 행동하려 하지 않았습니다. 대신 플레이어 B 는 플레이어 A 의 강요된 경로에 맞서기 위한 단 하나의 완벽한 대응 수를 학습했습니다.
붕괴: 게임은 더 이상 게임이 아니게 되었습니다. 플레이어 A 가 매번 처참하게 지는 예측 가능한 루프로 변했습니다. 연구자들은 이를 **"결정론적 착취 끌개 (Deterministic Exploitation Attractor)"**라고 부릅니다. 마치 조향 장치가 잠긴 차가 절벽으로 떨어지는 것과 같습니다. 차가 고장 나서 추락하는 것이 아니라, 다른 운전자가 그 차가 어디로 갈지 정확히 알고 기다리기 때문에 추락하는 것입니다.

2. "작은 선택 하나"의 마법

가장 놀라운 부분은 여기 있습니다. 연구자들은 플레이어 A 에게 단 하나의 선택권만 되돌려 주었을 때 어떤 일이 일어나는지 테스트했습니다.

상황: 아마도 플레이어 A 는 시작할 때는 여전히 앞으로 이동하도록 강요받지만, 마지막 순간에는 '멈춤' 또는 '이동' 중 하나를 선택할 수 있게 된 것입니다.
결과: 붕괴는 즉시 사라졌습니다. 게임은 정상으로 돌아왔습니다. 플레이어 B 는 플레이어 A 를 완벽하게 예측할 수 없게 되었습니다. 그 작은 불확실성의 순간 하나 때문에 말입니다.
교훈: 중요한 것은 많은 선택권을 갖는 것이 아닙니다. 아무 선택권이라도 갖는 것입니다. 상대를 놀라게 할 수 있는 단 하나의 장소라도 있다면 시스템은 안정적으로 유지됩니다. 상대를 놀라게 할 수 있는 곳이 전혀 없다면 시스템은 무너집니다.

3. 왜 이런 일이 일어날까요? ("거울" 효과)

이 논문은 이것이 단순히 플레이어 A 가 약해서가 아니라, 그들이 함께 학습하는 방식 때문이라고 설명합니다.

비유: 두 명의 무용수가 안무를 함께 배우는 상황을 상상해 보세요. 한 무용수가 갑자기 즉흥 연기를 멈추고 미리 쓰인 딱딱한 대본만 따르기만 한다면, 다른 무용수는 창의적으로 춤추는 것을 멈추고 그 대본에 완벽하게 맞추기 위해 동작만 외우게 될 것입니다.
메커니즘: "붕괴"가 발생하는 이유는 두 에이전트가 **상호 적응 (co-adapting)**하기 때문입니다. 그들은 서로로부터 학습합니다. 한 에이전트가 유연성을 모두 잃으면, 다른 에이전트는 그 경직성을 이용하도록 학습합니다. 논문은 한 에이전트를 얼려서 (학습을 멈추게 하고) 다른 에이전트만 정적인 상대에게 학습하게 하면 붕괴가 발생하지 않음을 보여줌으로써 이를 증명합니다. 재앙은 두 에이전트가 경직된 환경에서 서로로부터 학습하려 할 때만 발생합니다.

4. 그들이 플레이하는 게임이 중요할까요?

연구자들은 이 현상을 다양한 게임에서 테스트했습니다.

단순한 게임 (동전 맞추기 등).
카드 게임 (카드 수에 따라 다른 포커 변형들).
주사위 게임 (수천 가지 가능한 시나리오가 있는 거짓말 주사위).
협력 게임 (플레이어들이 함께 일하도록 노력하는 게임).

연구 결과:

경쟁 게임 (포커 등) 에서 "선택권 없음" 규칙은 완전한 붕괴를 초래했습니다. 에이전트들은 게임 수행 능력이 극도로 떨어졌습니다.
협력 게임 (목표를 맞추기 위해 노력하는 팀 등) 에서 에이전트들은 패배하는 루프로 "붕괴"하지는 않았지만, 함께 일하는 능력은 떨어졌습니다. 그들은 더 이상 완벽하게 조율할 수 없게 되었습니다.
크기는 중요하지 않습니다: 게임에 가능한 수단이 12 개든 24,000 개든 상관없었습니다. "선택 능력"이 0 으로 떨어지면 붕괴가 발생했습니다.

5. "되돌리기" 버튼

연구자들은 이 손상이 영구적인지 여부도 테스트했습니다.

테스트: 그들은 깨진 에이전트들을 붕괴될 때까지 플레이하게 한 뒤, 갑자기 플레이어 A 에게 선택권을 되돌려 주었습니다.
결과: 에이전트들은 거의 즉시 회복했습니다. 몇 번의 게임 안에 다시 잘 플레이하게 되었습니다.
의미: 에이전트들은 플레이하는 법을 "잊어버리거나" "혼란스러워" 한 것이 아닙니다. 그들은 깨진 규칙에 적응했을 뿐입니다. 규칙이 고쳐지면 그들은 다시 적응했습니다. "붕괴"는 뇌에 영구적인 손상을 입힌 것이 아니라, 현재 상황에 대한 반응이었습니다.

요약

이 논문은 인공지능에 있어 임계점을 규명합니다.

선택권 0 = 재앙: AI 에이전트가 결정을 내리지 못하도록 강요받으면, 상대 파트너는 이를 완벽하게 이용하도록 학습하여 게임이 무너집니다.
선택권 1 = 안전: 에이전트에게 단 하나의 선택을 할 수 있는 곳이라도 주면, 게임은 안정적이고 공정하게 유지됩니다.

이는 AI 시스템이 견고하게 유지되기 위해서는 제약이 있더라도 의사결정 과정에서 최소한의 유연성이나 "예외 상황"을 유지해야 함을 시사합니다. 그 작은 불확실성의 불꽃이 없으면 시스템은 완전한 실패에 취약해집니다.

기술 요약: 의사결정 능력의 구조적 임계값이 자기대결 강화학습의 붕괴를 지배함

문제 제기

자기대결을 통해 훈련된 다중 에이전트 강화학습 (MARL) 에이전트가 복잡한 분야에서 초인적인 성과를 거두었음에도 불구하고, 환경의 구조적 변화에 대한 그들의 견고성은 여전히 잘 이해되지 않고 있습니다. 기존 연구는 주로 관측치나 보상에 대한 적대적 교란, 또는 상대 모델링의 분포 변화에 초점을 맞추어 왔습니다. 그러나 행동 공간에 대한 비대칭적 구조적 교란—즉, 에이전트가 훈련 도중 특정 행동에 대한 접근 권한을 영구적으로 상실하는 경우—의 결과는 체계적으로 탐구되지 않았습니다.

본 논문은 한 플레이어의 베팅, 레이즈, 또는 특정 행동 선택 능력이 결정론적으로 제거된 의사결정 노드의 하위 집합에서 자기대결 에이전트가 어떻게 반응하는지 조사합니다. 핵심 질문은 이러한 능력 상실이 치명적인 실패 모드로 이어지는지, 아니면 에이전트가 안정성을 유지하기 위해 적응할 수 있는지 여부입니다.

방법론

이 연구는 다양한 학습 알고리즘을 활용하여 이산적 불완전 정보 게임과 행렬 게임에 걸쳐 엄격한 실험 프레임워크를 적용합니다.

도메인: 실험은 정보 집합 수가 1(동전 맞추기) 에서 24,576 이상 (거짓말 주사위) 에 이르는 6 가지 게임 변형을 포함합니다. 여기에는 쿤 포커, 레듀크 포커, 레듀크 -4 포커, 거짓말 주사위, 동전 맞추기, 그리고 협력적 조정 게임이 포함됩니다.
알고리즘: 6 가지 서로 다른 학습 알고리즘이 테스트됩니다: Q-러닝, SARSA, REINFORCE, PPO, DQN(심층 Q-네트워크), NFSP(신경 가상 자기대결).
교란 프로토콜: 각 실험에서 플레이어 0 의 합법적 행동 집합이 훈련 중간 시점에 결정론적으로 축소됩니다 (예: 포커에서 "베팅" 행동 제거 또는 동전 맞추기에서 "앞면" 제거).
주요 지표: 저자들은 **의존적 행동 용량 (Contingent Action Capacity, CAC)**을 에이전트가 2 개 이상의 합법적 행동을 보유하는 도달 가능한 정보 집합의 수로 정의합니다. 가중치를 부여하지 않은 개수와 드물게 도달되는 의사결정 지점을 할인하는 **도달 가중치 CAC( $CAC_w$ )**를 구분합니다.
통제: 메커니즘을 분리하기 위해 연구는 다음을 활용합니다:
- 동결 기준선: 교란 시점에 Q-테이블과 탐험율이 동결된 에이전트.
- 고정 상대: 학습하는 상대가 아닌 정적 내시 (Nash) 상대에 대해 훈련.
- 집단 기반 훈련: PSRO(정책 공간 응답 오라클) 를 사용하여 다양한 전략 집단이 붕괴를 완화하는지 테스트.

주요 발견

1. 구조적 임계값 효과

주요 발견은 $CAC_w$ 에 의해 지배되는 날카롭고 불연속적인 임계값입니다.

영 의존성 ( $CAC_w = 0$ ): 모든 양의 도달 의사결정 지점이 강제될 때 (즉, 에이전트가 도달 가능한 모든 노드에서 단일 합법적 행동만 취할 수밖에 없을 때), 자기대결 에이전트는 **결정론적 착취 끌개 (Deterministic Exploitation Attractor, DEA)**로 빠르게 수렴합니다. 이 상태에서 에이전트는 거의 최대 손실에 가까운 고정점으로 수렴합니다 (예: 쿤 포커의 Q-러닝은 4 회 에피소드 내에 -0.926 의 보상을 0.27 로 정규화된 값으로 하락).
잔여 의존성 ( $CAC_w > 0$ ): 에이전트가 선택권을 보유하는 단일 양의 도달 의사결정 지점만 유지해도 이러한 붕괴는 방지됩니다. 에이전트는 내시 균형 근처에서 안정화됩니다. $CAC_w=0$ 에서 $CAC_w=1$ 로의 전환은 게임의 최적 응답 구조에서 질적인 변화를 나타냅니다.

2. 메커니즘: 제약 하의 공적응

붕괴는 교란 자체에 의해 발생하는 것이 아니라, 제약된 에이전트와 학습하는 상대 간의 공적응에 의해 발생합니다.

동결 기준선/고정 상대: 상대가 동결되거나 정적일 때, 제약된 에이전트는 DEA 로 붕괴하지 않습니다. 단지 정적 환경에 적응할 뿐입니다.
자기대결 역학: 자기대결 하에서 상대는 제약된 에이전트의 강제된 정책에 대한 순수 최적 응답을 학습합니다. 제약된 에이전트가 이탈할 수 없기 때문에 상대의 최적 응답은 결정론적 착취 전략이 되어, 제약된 에이전트의 가치를 이론적 최소치로 끌어내립니다.

3. 알고리즘 불변성과 심각도

이 현상은 알고리즘 유형에 따라 불변입니다:

표와 신경망: 표 방법 (Q-러닝, SARSA) 과 신경 근사기 (DQN, PPO, NFSP) 모두 영 의존성 하에서 붕괴합니다.
심각도 스케일링: 붕괴의 심각도는 잔여 행동 옵션에 반비례합니다. 동전 맞추기 (잔여 옵션 없음) 는 가장 심각한 붕괴를 보이며, 레듀크 변형 (폴드/체크 - 콜 옵션 유지) 은 덜 심각한 저하를 보입니다.
함수 근사: DQN 은 가장 깊은 붕괴 (-0.994) 를 보이며, 정책 엔트로피가 거의 0 으로 떨어지고 Q-값 간격이 급증하여 결정론적 정책으로의 빠른 수렴을 나타냅니다.

4. 경계 조건과 가역성

가역성: 붕괴는 완전히 가역적입니다. 제거된 행동을 복원하면 에이전트는 몇몇 에피소드 내에 교란 전 성능을 회복하며, 이는 DEA 가 손상된 표현이 아니라 유지된 끌개임을 확인시켜 줍니다.
게임 유형 의존성:
- 제로섬: DEA 로의 붕괴가 관찰됩니다.
- 협력/혼합 동기: 조정 및 협상 게임에서 영 의존성은 성능 저하를 초래하지만 DEA 로의 수렴은 초래하지 않습니다. 역학은 치명적 착취가 아닌 유계 저하로 전환됩니다.
- 전략적 유연성: 거짓말 주사위에서 모든 "주장"을 제거하되 "도전"을 유지하면 붕괴가 발생하지 않습니다. 도전의 타이밍이 여전히 의존적 의사결정 ( $CAC_w > 0$ ) 이기 때문입니다. 붕괴는 에이전트가 결정론적으로 플레이하도록 강제될 때만 발생합니다 (예: 항상 가장 낮은 합법적 행동 플레이).

이론적 기여

본 논문은 이 임계값을 특징짓는 공식적 명제를 제공합니다:

명제 1 (영 의존성 착취): $CAC(P_0) = 0$ 일 때, 게임은 상대에게 단일 에이전트 MDP 로 축소되며, 최적 정책은 선형 시간으로 계산 가능한 순수 최적 응답이 됩니다.
명제 2 (잔여 의존성 한계): 제약된 에이전트의 가치는 유지된 의사결정 지점의 도달 확률에 의해 제한됩니다. 양의 도달을 가진 단일 유지 의사결정만으로도 전체 붕괴를 방지하기에 충분합니다.
명제 3 (DEA 를 고정점으로): 영 의존성 하에서 자기대결 역학은 상대가 강제된 전략에 대한 최적 최적 응답을 플레이하는 고유한 고정점으로 수렴합니다.

중요성과 주장

본 논문은 의사결정 용량이 자기대결 MARL 의 안정성을 위한 구조적 전제 조건임을 확립합니다. 저자들은 다음과 같이 주장합니다:

최적 응답 구조의 불연속에 의해 유발되는 실질적으로 날카로운 임계값이 $CAC_w = 0$ 에 존재합니다.
붕괴는 공적응에 의해 주도되며, 이는 학습 에이전트가 정적 에이전트와는 다른 방식으로 구조적 제약에 고유하게 취약함을 의미합니다.
이 실패 모드는 시간 불변이며 완전히 가역적이므로, 근본적인 표현이 영구적으로 손상된 것이 아니라 특정 끌개 상태에 갇힌 것임을 시사합니다.
이러한 발견은 행동 공간이 동적으로 제한될 수 있는 환경 (예: 로봇 공학의 하드웨어 고장 또는 금융의 규제 변경) 에서 RL 시스템을 배포할 때의 치명적인 취약점을 강조합니다. 제약이 모든 전략적 의존성을 제거할 경우 시스템이 단순히 저하되는 것이 아니라 치명적으로 붕괴할 수 있기 때문입니다.

이 연구는 일반합 게임을 공식적으로 해결한다고 주장하지는 않지만, 협력적 환경이 제로섬 붕괴 대신 유계 저하를 보인다는 경험적 증거를 제공하여 상호작용 구조가 임계값 효과의 심각도를 조절함을 시사합니다.

A Structural Threshold in Decision Capacity Governs Collapse in Self-Play Reinforcement Learning