A Robust and Efficient Multi-Agent Reinforcement Learning Framework for Traffic Signal Control

Each language version is independently generated for its own context, not a direct translation.

🚦 핵심 주제: "고정된 신호등 vs. 상황에 맞춰 춤추는 신호등"

지금까지의 신호등은 마치 매일 똑같은 시간에 똑같은 음악을 틀어주는 DJ와 같았습니다. "오전 9 시엔 30 초, 오후 5 시엔 40 초"처럼 미리 정해진 규칙만 따르죠. 하지만 실제 도로는 날씨, 사고, 행진 등 예측 불가능한 변수가 너무 많습니다. 이 고정된 DJ 는 갑자기 차가 몰려오면 당황해서 제때 음악을 바꿔주지 못해 교통 체증이 생깁니다.

이 논문은 상황을 보고 즉흥적으로 리듬을 바꾸는 '재즈 DJ' 같은 인공지능 (AI) 신호등 시스템을 제안합니다.

🛠️ 이 시스템이 사용한 3 가지 비밀 무기

연구팀은 이 '재즈 DJ'가 실수하지 않고 잘 연주할 수 있도록 세 가지 특별한 훈련 방법을 개발했습니다.

1. "예측 불가능한 손님"을 초대하라 (회전 비율 무작위화)

문제: AI 가 훈련할 때만 "오전 9 시엔 왼쪽으로 가는 차가 30%"라고 정해두면, AI 는 그 패턴만 외워버립니다. 실제 도로에서 갑자기 오른쪽으로 가는 차가 몰려오면 AI 는 당황해서 제 기능을 못 합니다. (이를 '과적합'이라고 합니다.)
해결책: 훈련할 때마다 차량의 방향 비율을 임의로 섞어줍니다. 마치 식당에서 매일 메뉴를 랜덤으로 바꾸는 것처럼요.
효과: AI 는 "어떤 날에는 왼쪽이 많고, 어떤 날에는 오른쪽이 많을 수도 있구나"라고 배우게 됩니다. 그래서 실제 도로에서 예상치 못한 상황이 와도 당황하지 않고 유연하게 대처할 수 있게 됩니다.

2. "조금씩, 혹은 확!" 조절하는 지능형 타이머 (지수적 신호 시간 조절)

문제: 기존 신호등은 시간을 조절할 때 "1 초씩만 늘려" 혹은 "10 초씩만 줄여"처럼 고정된 간격으로만 움직였습니다.
- 1 초씩만 조절하면: 갑자기 차가 몰렸을 때 1 초씩 늘려서 해결하려면 너무 오래 걸립니다.
- 10 초씩만 조절하면: 차가 없을 때 10 초씩 늘리면 불필요하게 신호가 길어져서 다른 차들이 기다려야 합니다.
해결책: 지수 (Exponential) 방식을 도입했습니다.
- 차가 거의 없을 때는 0 초나 1 초처럼 아주 미세하게 조절해서 정밀하게 맞춥니다.
- 갑자기 교통 체증이 생기면 8 초, 16 초처럼 크게 점프해서 빠르게 해결합니다.
효과: 마치 카메라의 줌 (Zoom) 기능처럼, 멀리서 볼 때는 크게, 가까이서 볼 때는 정밀하게 조절하여 안정성과 신속성을 모두 잡았습니다.

3. "이웃집과 대화하는" 신호등들 (중앙 훈련, 분산 실행)

문제: 모든 신호등이 서로의 상태를 다 알면 좋겠지만, 도시 전체의 신호등을 한곳에서 다 제어하는 건 너무 복잡하고 비싸서 불가능합니다. 반면, 내 신호등만 보면 앞차의 흐름을 못 알아서 '녹색 물결 (Green Wave)'을 만들 수 없습니다.
해결책: 중앙에서 가르치고, 현장에서 실행하는 방식을 썼습니다.
- 훈련 중 (중앙): 모든 신호등 데이터를 한곳에 모아 AI 가 "이웃 신호등이 빨간불일 때 내가 초록불로 바꾸면 전체가 잘 움직인다"는 걸 배웁니다. (중앙 집중식 학습)
- 실제 운영 시 (분산): 실제 도로에서는 각 신호등이 자신의 상태와 바로 옆 신호등의 상태만 보고 판단합니다. (분산 실행)
효과: 중앙의 지혜를 배우면서도, 통신 비용은 적게 들고 시스템은 확장하기 쉽습니다. 마치 프로 축구팀처럼, 감독 (중앙 AI) 이 전체 전술을 가르치고, 선수들 (각 신호등) 은 경기 중에는 옆 선수와 눈만 맞춰서 움직이는 것과 같습니다.

📊 결과는 어땠나요?

이 시스템을 실제 도로 (타이완 타오위안 시) 의 시뮬레이션으로 테스트한 결과:

평균 대기 시간 10% 이상 감소: 차들이 신호등 앞에서 기다리는 시간이 크게 줄었습니다.
예상치 못한 상황에도 강함: 훈련할 때와 다른 시간대나 교통량에서도 기존 방식보다 훨씬 잘 작동했습니다.
안정성: 신호등이 갑자기 켜지거나 꺼지는 등 불안정한 현상이 줄어들었습니다.

💡 결론

이 논문은 **"교통 신호등도 고정된 규칙이 아니라, 상황에 맞춰 유연하게 생각하고 행동하는 AI 로 바꿔야 한다"**는 것을 증명했습니다.

우리가 매일 겪는 교통 체증은 단순히 차가 많아서가 아니라, 신호등이 그 상황을 제대로 이해하지 못해서일 수 있습니다. 이 연구는 더 똑똑하고, 더 빠르게, 그리고 더 안전하게 도시를 움직이게 할 수 있는 새로운 길을 제시합니다. 마치 도로 위의 지능형 교통 관제사가 등장한 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

교통 신호 제어 (TSC) 에 강화 학습 (RL) 을 적용하는 것은 유망하지만, 실제 현장 배포에는 다음과 같은 주요 장벽이 존재합니다.

일반화 능력 부족 (Generalization): 기존 RL 모델은 정적인 교통 흐름 패턴에 과적합 (Overfitting) 되는 경향이 있어, 실제 환경에서 발생하는 동적인 교통량 변화나 예측 불가능한 상황에 대처하지 못합니다.
행동 공간 (Action Space) 의 비효율성: 기존 방법들은 운전자의 기대나 안전 요구사항과 맞지 않는 경우가 많습니다.
- 비주기적 제어: 안전을 위해 필수적인 신호 순서 (녹색 - 노란색 - 적색) 를 위반할 수 있음.
- 이진 스위칭: 신호 진동을 유발하고 통신 오버헤드가 큼.
- 선형 조정: 고정된 간격 (예: ±3 초, ±6 초) 으로만 조정하여 급격한 정체에는 반응이 느리거나, 정상 상태에서는 과도하게 조정하여 불안정성을 초래함.
확장성 (Scalability) 문제: 대규모 교통 네트워크에서 전역 (Global) 관측을 기반으로 한 중앙 집중식 제어는 계산 복잡도가 너무 높아 실용적이지 않으며, 지역 (Local) 관측만으로는 상류 교통 흐름을 예측하여 '그린 웨이브 (Green Wave)'를 형성하기 어렵습니다.

2. 제안된 방법론 (Methodology)

이 논문은 Vissim(고충실도 미시 교통 시뮬레이터) 환경에서 검증된 3 가지 핵심 메커니즘을 통합한 견고한 다중 에이전트 강화 학습 (MARL) 프레임워크를 제안합니다.

A. 회전 비율 무작위화 (Turning Ratio Randomization)

목적: 에이전트가 특정 고정된 교통 패턴을 암기하는 것을 방지하고, 비정상적인 (Non-stationary) 교통 조건에 대한 견고성을 높입니다.
방식: 각 학습 에피소드 시작 시, 모든 접근로의 회전 확률 (Turning Ratio) 에 균일 분포 (Uniform Distribution) 기반의 노이즈를 곱하고 다시 정규화합니다.
효과: 에이전트가 교통량 변화에 반응하는 '상태 기반 (State-based)' 전략을 학습하도록 유도하여, 훈련되지 않은 새로운 시나리오에서도 성능이 유지되도록 합니다.

B. 지수적 신호 주기 조정 (Exponential Phase Duration Adjustment)

목적: 안정성과 반응성 사이의 균형을 맞추기 위한 새로운 행동 공간 설계입니다.
방식: 다음 신호 주기의 녹색 시간을 결정할 때, 고정된 선형 간격 대신 지수적 조정 세트를 사용합니다.
- 조정 집합: $\Delta t \in \{0, \pm\lambda^0, \pm\lambda^1, \pm\lambda^2, \pm\lambda^3\}$
- 예시 ( $\lambda=2$ ): $\{0, \pm1, \pm2, \pm4, \pm8\}$
장점:
- 세밀한 제어: 정상 상태에서는 작은 간격 (0, ±1 초) 으로 신호를 미세 조정하여 진동을 방지합니다.
- 급격한 대응: 급격한 정체 발생 시 큰 간격 (±8 초 등) 으로 빠르게 대응하여 정체를 해소합니다.
- 안전성: 고정된 신호 순서 (주기적 제어) 를 유지하며 운전자의 기대에 부합합니다.

C. 이웃 기반 관측을 통한 확장 가능한 조정 (Scalable Coordination via Neighbor-Level Observation)

목적: 전역 관측의 최적성과 지역 관측의 확장성 사이의 딜레마를 해결합니다.
방식: 중앙 집중식 훈련 및 분산 실행 (CTDE, Centralized Training with Decentralized Execution) 패러다임을 적용합니다.
- 훈련 단계: MAPPO (Multi-Agent Proximal Policy Optimization) 알고리즘을 사용하여, 모든 에이전트의 전역 상태 정보를 가진 '중앙 비평가 (Critic)'가 학습을 돕습니다.
- 실행 단계: 각 에이전트는 직접 연결된 이웃 교차로 (Neighbor) 의 정보만 관측하여 분산적으로 결정을 내립니다.
효과: 확장 가능한 구조를 유지하면서도 전역적인 협력 효과를 달성합니다.

3. 실험 설정 및 결과 (Experiments & Results)

환경: 대만 타오위안 시의 '중정동로 (Zhongzheng East Road)'를 디지털 트윈으로 구축한 PTV Vissim 시뮬레이터 사용.
데이터: 훈련은 피크 시간대 (High-load) 데이터로 수행하고, 테스트는 피크 및 오프-피크 (Off-peak) 시간대 모두에서 수행하여 일반화 능력을 검증했습니다.
비교 대상: 고정 시간 계획 (FixTime), MaxPressure 휴리스틱, 기존 RL 모델 (선형 조정, 정적 훈련 등).

주요 성과:

성능 향상: 제안된 프레임워크 ( $M^{randomized}_{neighbor}$ ) 는 피크 시간대에서 평균 대기 시간을 10% 이상 감소시켰으며, MaxPressure 휴리스틱보다 우수한 성능을 보였습니다.
일반화 능력: 정적 훈련을 받은 기존 RL 모델은 오프-피크 시간대에서 성능이 급격히 저하되었으나, 회전 비율 무작위화를 적용한 모델은 오프-피크 상황에서도 MaxPressure 를 능가하는 견고한 성능을 유지했습니다.
CTDE 의 효과: 분산형 비평가 (IPPO) 를 사용한 모델보다 중앙 집중식 비평가 (MAPPO) 를 사용한 모델이 피크/오프-피크 모두에서 유의미하게 우수한 결과를 보였습니다.
행동 공간 비교: 지수적 조정 방식이 선형 조정 방식 (Small-Scale, Large-Scale) 보다 모든 지표 (평균 이동 시간, 대기 시간 등) 에서 우월했습니다. 특히 오프-피크 상황에서 선형 조정 방식의 성능 저하가 두드러진 반면, 지수적 조정은 안정성을 유지했습니다.

4. 주요 기여 (Key Contributions)

견고한 학습 전략: 교통 흐름의 동적 변화를 반영하기 위한 회전 비율 무작위화 기법을 도입하여, 실제 환경에서의 과적합 문제를 해결했습니다.
안전하고 효율적인 제어: 운전자의 기대와 안전을 고려한 지수적 신호 주기 조정 방식을 제안하여, 급격한 변화에 대한 민첩성과 정상 상태의 안정성을 동시에 확보했습니다.
확장 가능한 협업 구조: 이웃 기반 관측과 CTDE를 결합하여 대규모 교통 네트워크에서도 전역적 협력이 가능한 확장성 있는 MARL 프레임워크를 구축했습니다.
고충실도 검증: 단순한 시뮬레이션 (SUMO 등) 이 아닌, 산업 표준인 Vissim을 사용하여 실제 배포 가능성을 입증했습니다.

5. 의의 및 결론 (Significance & Conclusion)

이 연구는 강화 학습 기반 교통 신호 제어의 실용화를 위한 중요한 걸음입니다. 제안된 프레임워크는 시뮬레이션과 현실 (Sim-to-Real) 간의 격차를 줄이고, 동적인 교통 환경에서도 견고성 (Robustness) 과 확장성 (Scalability) 을 동시에 만족시키는 솔루션을 제공합니다. 특히, 복잡한 전역 정보 없이도 이웃 정보만으로도 전역 수준의 최적화를 달성할 수 있음을 입증함으로써, 실제 도시 규모의 교통 관리 시스템 (ATMS) 에 적용 가능한 실용적인 기술적 토대를 마련했습니다.