A Robust and Efficient Multi-Agent Reinforcement Learning Framework for Traffic Signal Control

이 논문은 Vissim 시뮬레이터에서 검증된 강화 학습 기반의 다중 에이전트 프레임워크를 제안하여, 회전비 무작위화, 지수적 신호 단계 조정, 그리고 이웃 기반 관측 기법을 통해 기존 방법보다 10% 이상 평균 대기 시간을 단축하고 다양한 교통 상황에 대한 일반화 성능과 제어 안정성을 크게 향상시켰음을 보여줍니다.

Sheng-You Huang, Hsiao-Chuan Chang, Yen-Chi Chen, Ting-Han Wei, I-Hau Yeh, Sheng-Yao Kuan, Chien-Yao Wang, Hsuan-Han Lee, I-Chen Wu

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚦 핵심 주제: "고정된 신호등 vs. 상황에 맞춰 춤추는 신호등"

지금까지의 신호등은 마치 매일 똑같은 시간에 똑같은 음악을 틀어주는 DJ와 같았습니다. "오전 9 시엔 30 초, 오후 5 시엔 40 초"처럼 미리 정해진 규칙만 따르죠. 하지만 실제 도로는 날씨, 사고, 행진 등 예측 불가능한 변수가 너무 많습니다. 이 고정된 DJ 는 갑자기 차가 몰려오면 당황해서 제때 음악을 바꿔주지 못해 교통 체증이 생깁니다.

이 논문은 상황을 보고 즉흥적으로 리듬을 바꾸는 '재즈 DJ' 같은 인공지능 (AI) 신호등 시스템을 제안합니다.

🛠️ 이 시스템이 사용한 3 가지 비밀 무기

연구팀은 이 '재즈 DJ'가 실수하지 않고 잘 연주할 수 있도록 세 가지 특별한 훈련 방법을 개발했습니다.

1. "예측 불가능한 손님"을 초대하라 (회전 비율 무작위화)

  • 문제: AI 가 훈련할 때만 "오전 9 시엔 왼쪽으로 가는 차가 30%"라고 정해두면, AI 는 그 패턴만 외워버립니다. 실제 도로에서 갑자기 오른쪽으로 가는 차가 몰려오면 AI 는 당황해서 제 기능을 못 합니다. (이를 '과적합'이라고 합니다.)
  • 해결책: 훈련할 때마다 차량의 방향 비율을 임의로 섞어줍니다. 마치 식당에서 매일 메뉴를 랜덤으로 바꾸는 것처럼요.
  • 효과: AI 는 "어떤 날에는 왼쪽이 많고, 어떤 날에는 오른쪽이 많을 수도 있구나"라고 배우게 됩니다. 그래서 실제 도로에서 예상치 못한 상황이 와도 당황하지 않고 유연하게 대처할 수 있게 됩니다.

2. "조금씩, 혹은 확!" 조절하는 지능형 타이머 (지수적 신호 시간 조절)

  • 문제: 기존 신호등은 시간을 조절할 때 "1 초씩만 늘려" 혹은 "10 초씩만 줄여"처럼 고정된 간격으로만 움직였습니다.
    • 1 초씩만 조절하면: 갑자기 차가 몰렸을 때 1 초씩 늘려서 해결하려면 너무 오래 걸립니다.
    • 10 초씩만 조절하면: 차가 없을 때 10 초씩 늘리면 불필요하게 신호가 길어져서 다른 차들이 기다려야 합니다.
  • 해결책: 지수 (Exponential) 방식을 도입했습니다.
    • 차가 거의 없을 때는 0 초나 1 초처럼 아주 미세하게 조절해서 정밀하게 맞춥니다.
    • 갑자기 교통 체증이 생기면 8 초, 16 초처럼 크게 점프해서 빠르게 해결합니다.
  • 효과: 마치 카메라의 줌 (Zoom) 기능처럼, 멀리서 볼 때는 크게, 가까이서 볼 때는 정밀하게 조절하여 안정성과 신속성을 모두 잡았습니다.

3. "이웃집과 대화하는" 신호등들 (중앙 훈련, 분산 실행)

  • 문제: 모든 신호등이 서로의 상태를 다 알면 좋겠지만, 도시 전체의 신호등을 한곳에서 다 제어하는 건 너무 복잡하고 비싸서 불가능합니다. 반면, 내 신호등만 보면 앞차의 흐름을 못 알아서 '녹색 물결 (Green Wave)'을 만들 수 없습니다.
  • 해결책: 중앙에서 가르치고, 현장에서 실행하는 방식을 썼습니다.
    • 훈련 중 (중앙): 모든 신호등 데이터를 한곳에 모아 AI 가 "이웃 신호등이 빨간불일 때 내가 초록불로 바꾸면 전체가 잘 움직인다"는 걸 배웁니다. (중앙 집중식 학습)
    • 실제 운영 시 (분산): 실제 도로에서는 각 신호등이 자신의 상태와 바로 옆 신호등의 상태만 보고 판단합니다. (분산 실행)
  • 효과: 중앙의 지혜를 배우면서도, 통신 비용은 적게 들고 시스템은 확장하기 쉽습니다. 마치 프로 축구팀처럼, 감독 (중앙 AI) 이 전체 전술을 가르치고, 선수들 (각 신호등) 은 경기 중에는 옆 선수와 눈만 맞춰서 움직이는 것과 같습니다.

📊 결과는 어땠나요?

이 시스템을 실제 도로 (타이완 타오위안 시) 의 시뮬레이션으로 테스트한 결과:

  • 평균 대기 시간 10% 이상 감소: 차들이 신호등 앞에서 기다리는 시간이 크게 줄었습니다.
  • 예상치 못한 상황에도 강함: 훈련할 때와 다른 시간대나 교통량에서도 기존 방식보다 훨씬 잘 작동했습니다.
  • 안정성: 신호등이 갑자기 켜지거나 꺼지는 등 불안정한 현상이 줄어들었습니다.

💡 결론

이 논문은 **"교통 신호등도 고정된 규칙이 아니라, 상황에 맞춰 유연하게 생각하고 행동하는 AI 로 바꿔야 한다"**는 것을 증명했습니다.

우리가 매일 겪는 교통 체증은 단순히 차가 많아서가 아니라, 신호등이 그 상황을 제대로 이해하지 못해서일 수 있습니다. 이 연구는 더 똑똑하고, 더 빠르게, 그리고 더 안전하게 도시를 움직이게 할 수 있는 새로운 길을 제시합니다. 마치 도로 위의 지능형 교통 관제사가 등장한 것과 같습니다.