A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

Each language version is independently generated for its own context, not a direct translation.

🏎️ 핵심 아이디어: "눈만 믿고 달리는 천재 드라이버"

기존의 레이싱 AI 들은 마치 비행기 조종사처럼 달렸습니다.

기존 방식: 조종사는 비행기 밖의 모든 것을 정확히 알고 있습니다. "저기 100m 앞에 적군이 있고, 내 위치는 여기다"라고 전체 지도와 GPS를 통해 완벽하게 파악하죠. 하지만 현실 세계 (실제 도로) 에서는 이렇게 정확한 GPS 나 지도를 실시간으로 얻기 어렵습니다.
이 연구의 방식: 이 연구의 AI 는 인간 드라이버처럼 달립니다.
- 카메라 (눈): 차 앞유리에 달린 카메라로 앞만 봅니다.
- 센서 (몸의 감각): 핸들링, 가속, 브레이크, 차의 흔들림 등을 직접 느끼는 센서만 사용합니다.
- 특징: "내 위치가 어디지?", "저기 저 차가 어디 있지?"라는 전체 지도나 GPS 정보는 전혀 보지 않습니다. 오직 눈앞의 화면과 차의 느낌만으로 모든 결정을 내립니다.

🧠 어떻게 그렇게 똑똑해졌을까? (두뇌 구조)

이 AI 는 **비대칭 (Asymmetric)**이라는 독특한 두뇌 구조를 가졌습니다. 마치 수업 듣는 학생과 선생님의 관계와 비슷합니다.

학생 (Actor - 실행하는 부분):
- 상황: 시험 시간 (실제 경기) 에는 오직 **눈앞의 화면 (카메라)**과 **손발의 느낌 (센서)**만 봅니다.
- 역할: "저기 앞차가 보이네, 핸들을 살짝 돌려야겠다"라고 즉각적인 행동을 결정합니다.
- 기억력: 이 학생은 단순한 기억이 아니라, 과거의 장면을 기억하는 **재귀 신경망 (RNN)**을 가지고 있습니다. "아, 3 초 전에 저기서 저 차가 지나갔으니, 지금 저기서 다시 나타날 거야!"라고 눈에 보이지 않는 적의 위치도 상상해냅니다.
선생님 (Critic - 평가하는 부분):
- 상황: 수업 시간 (학습 중) 에는 전체 지도, 모든 차의 위치, 트랙의 끝까지 다 볼 수 있습니다.
- 역할: 학생이 내린 결정이 맞는지 틀린지를 완벽한 정보를 바탕으로 평가하고 가르칩니다. "너는 저 차를 피해야 했는데, 왜 그쪽으로 갔니? 전체 지도를 보면 저기서 충돌할 거야."라고 알려줍니다.
- 결과: 학습이 끝난 후, 학생은 선생님 없이도 (지도 없이) 혼자서도 챔피언급 실력을 발휘하게 됩니다.

🏆 결과는 어땠나요?

이 AI 는 게임 '그란 투라모 7'에서 19 명의 AI 적과 20 대의 레이싱을 펼쳤습니다.

시작: 맨 마지막 (20 위) 에서 출발했습니다.
결과: 1 위로 finish 라인을 통과했습니다.
비교: 게임에 내장된 기본 AI 는 물론이고, **실제 인간 챔피언 (세계 대회 우승자)**보다도 더 빠르고 정확하게 달렸습니다.

특히 도쿄 에クス프레스웨이 같은 좁고 복잡한 코스에서는, 적의 차가 어디를 보고 있는지, 어느 방향으로 움직일지 카메라 화면만 보고도 완벽하게 예측해서 추월하는 모습을 보였습니다.

🎨 AI 는 무엇을 보고 있을까요? (시각 분석)

연구진은 AI 가 무엇을 보고 결정을 내리는지 분석했습니다.

경쟁자가 보일 때: AI 는 적의 바퀴 아래쪽이나 그림자에 집중합니다. 인간 드라이버가 "저 차가 지금 코너를 잘 돌고 있나?"를 판단할 때 차의 하단부를 보는 것과 똑같습니다.
직진할 때: AI 는 하늘, 나무 줄기, 도로 끝에 집중합니다. 인간이 "어디로 가야 할지"를 판단할 때 먼 곳의 랜드마크를 보는 것과 같습니다.
과거의 기억: AI 는 지난 1 초, 2 초 전의 화면까지 기억해서, 지금 보이지 않는 적의 위치를 추측합니다. 마치 "방금 저기서 차가 지나갔으니, 지금 저기서 튀어나올 거야"라고 예측하는 것입니다.

💡 왜 이 연구가 중요할까요?

지금까지의 AI 레이싱은 현실 세계에 적용하기 어려웠습니다. (GPS 나 정밀 지도가 없으면 작동하지 않았기 때문).
하지만 이 연구는 "카메라와 센서만 있으면, 지도 없이도" 인간보다 잘 달릴 수 있음을 증명했습니다.

이는 곧 실제 자율주행 자동차가 복잡한 도시에서, GPS 가 끊기거나 주변 차들이 가려져도 눈과 센서만으로 안전하게, 그리고 빠르게 달릴 수 있는 가능성을 보여준 것입니다.

📝 한 줄 요약

"지도나 GPS 없이, 오직 앞유리 카메라와 차의 느낌만으로 인간 챔피언보다 더 잘 달리는 AI 드라이버를 개발했다!"

이 기술은 언젠가 우리 도로에서, 비가 오거나 안개가 끼는 상황에서도 스스로 길을 찾아 달리는 진정한 자율주행차의 핵심 기술이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 그랑 투리스모 7 (GT7) 과 같은 고충실도 시뮬레이터에서 딥 강화학습 (RL) 을 기반으로 한 자율 주행 레이싱 에이전트는 이미 인간을 능가하는 성능을 입증했습니다.
문제점: 기존 최첨단 RL 에이전트 (예: GT Sophy) 는 추론 (Inference) 시 차량 외부의 정밀한 위치 정보, 트랙 지형, 상대방의 정확한 위치 등 글로벌 특징 (Global Features) 에 의존합니다. 이는 실제 세계 (Real-world) 에서 외부 센서나 정밀한 로컬라이제이션 장비가 필요함을 의미하며, 지연 시간 (Latency) 을 유발하여 실제 레이싱 환경에 적용하기 어렵게 만듭니다.
목표: 본 연구는 차량에 탑재된 센서 (전방 카메라, IMU 등) 만으로만 정보를 얻는 (Ego-centric) 상태에서 경쟁적인 레이싱 (다수 차량과의 경주) 을 수행하며, 인간 챔피언 수준의 성능을 내는 비전 기반 RL 에이전트를 개발하는 것입니다.

2. 제안된 방법론 (Methodology)

A. 관찰 공간 (Observation Space)

에이전트는 추론 시 다음 두 가지 로컬 정보만 사용합니다:

이미지 특징 ( $o^i_t$ ): 차량 전방 카메라의 64x64 RGB 이미지 (HUD 및 미러 제거).
고유 감각 정보 (Proprioceptive, $o^p_t$ ): IMU 센서 데이터 (선형/각속도, 가속도), 조향/스로틀/브레이크 입력, 조향각 변화량 등.

참고: 학습 중에는 크리틱 (Critic) 이 트랙 지형과 상대방 위치 등 글로벌 정보를 사용하지만, 추론 시에는 이를 사용하지 않습니다.

B. 비대칭 액터-크리틱 아키텍처 (Asymmetric Actor-Critic Architecture)

액터 (Actor): 오직 로컬 정보 (이미지 + 고유 감각) 만 입력받습니다. 순환 신경망 (RNN, GRU) 을 포함하여 부분 관측 가능성 (Partial Observability) 을 해결합니다. RNN 은 가려진 상대방의 위치나 트랙 레이아웃을 기억하고 추론하는 데 사용됩니다.
크리틱 (Critic): 학습 단계에서 액터의 행동을 평가할 때 로컬 정보와 함께 글로벌 정보 (상대방 위치, 트랙 포인트 등) 를 접근하여 더 정확한 가치 함수를 학습합니다.
알고리즘: 분포적 강화학습 알고리즘인 QR-SAC (Quantile Regression Soft Actor-Critic) 를 사용합니다.

C. 정규화 기법 (Regularization)

과적합을 방지하고 일반화 성능을 높이기 위해 다음 기법을 적용했습니다:

네트워크 재초기화 (Network Reinitialization): 리플레이 버퍼가 충분히 채워진 후 (약 2,000 에포크) 네트워크를 재초기화하여 에이전트가 초기 데이터의 편향 (단순한 트랙 구간 등) 에서 벗어나 복잡한 상호작용을 다시 학습하도록 유도합니다.
이미지 증강 (Image Augmentation): 입력 이미지에 무작위 이동 (Random Shift) 을 적용하여 특정 시각적 단서에 의존하지 않도록 합니다.

D. 보상 함수 (Reward Function)

경쟁 레이싱에 적합한 다중 보상 구조를 사용합니다:

트랙 진행도 (Track Progress), 단축로 금지 (Shortcut Penalty), 장벽/차량 충돌 패널티, 추월 보상, 조향 변화 패널티 등을 가중치로 결합합니다.

3. 주요 기여 (Key Contributions)

초인적 경쟁 레이싱 달성: 그랑 투리스모 7 의 고난이도 경쟁 레이싱 시나리오 (19 대의 AI 상대와 경주) 에서 인간 챔피언을 능가하는 성능을 보이는 최초의 비전 기반 자율 주행 에이전트를 제시했습니다.
실용적인 추론 환경: 외부 정밀 위치 정보 없이 오직 차량 내장 센서 (카메라, IMU) 만으로 추론이 가능하도록 하여, 실제 자율 주행 레이싱으로의 이전 (Sim-to-Real) 가능성을 높였습니다.
부분 관측성 해결: RNN 을 활용한 비대칭 아키텍처가 가려진 상대방의 움직임과 트랙 구조를 효과적으로 추론하여 경쟁적 환경에서의 성능을 보장함을 입증했습니다.

4. 실험 결과 (Results)

평가 환경: GT7 의 3 가지 트랙 (도쿄, 스파, 사르트) 에서 20 대 차량이 참여하는 4 바퀴 레이스 (시작 위치는 최하위) 를 수행했습니다.
성능 비교:
- 도쿄 (Tokyo): 제안된 에이전트가 GT Sophy 와 인간 챔피언 모두를 압도했습니다. 특히 좁은 트랙과 제한된 런오프 영역에서 상대방의 방향과 간격을 시각적으로 파악하여 추월을 성공적으로 수행했습니다.
- 스파 (Spa): GT Sophy 와 유사한 수준의 성능을 내며 인간 챔피언을 능가했습니다.
- 사르트 (Sarthe): 인간 챔피언의 대부분을 능가했으나, GT Sophy 에 비해 충돌 시간이 다소 높았습니다 (이는 GT7 의 무작위성 및 1 코너에서의 충돌 확률 증가 때문으로 분석됨).
시각적 분석 (Visual Analysis): 통합 기울기 (Integrated Gradients) 를 통해 에이전트가 추월 시 상대방 차량의 하단부와 그림자에 집중하고, 직선 구간에서는 지평선이나 나무 줄기 등 정적 특징에 집중하여 인간 드라이버와 유사한 주시 패턴을 보임을 확인했습니다.
Ablation Study:
- 비대칭 구조: 크리틱이 글로벌 정보를 사용하지 않는 대칭 구조에서는 1 위 달성 실패.
- RNN 제거: RNN 을 제거하면 상대방 추월이 불가능해지며 성능이 급격히 저하됨 (시간적 연속성 유지의 중요성 입증).
- 정규화: 이미지 증강과 네트워크 재초기화가 성능의 안정성과 일반화에 필수적임.

5. 의의 및 결론 (Significance)

이 연구는 시각 기반 강화학습이 고난이도 경쟁 환경에서도 인간을 능가할 수 있음을 증명했습니다.
외부 인프라에 의존하지 않는 자율 주행 레이싱의 새로운 벤치마크를 제시하며, 실제 도로 환경에서의 자율 주행 기술 발전에 중요한 통찰을 제공합니다.
향후 작업으로는 다양한 차량 모델, 날씨 조건, 그리고 실제 인간 드라이버와의 직접적인 경쟁으로의 확장이 필요하다고 결론지었습니다.

요약하자면, 이 논문은 카메라와 IMU 만으로 경쟁 레이싱에서 인간 챔피언을 이기는 AI를 개발하여, 강화학습의 실용성과 비전 기반 자율 주행의 가능성을 크게 확장한 획기적인 연구입니다.