AltNet: Addressing the Plasticity-Stability Dilemma in Reinforcement Learning

이 논문은 안전이 중요한 환경에서 성능 저하 없이 강화학습의 가소성 손실 문제를 해결하기 위해, 학습과 재학습을 번갈아 수행하는 쌍둥이 신경망 구조인 'AltNet'을 제안하고 이를 통해 샘플 효율성과 성능을 동시에 향상시켰음을 보여줍니다.

Mansi Maheshwari, John C. Raisbeck, Bruno Castro da Silva

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

AltNet: 학습하는 로봇을 위한 '쌍둥이 휴식 시스템'

이 논문은 인공지능 (AI) 이 배우는 과정에서 겪는 아주 흥미로운 문제를 해결한 새로운 방법, AltNet에 대해 설명합니다.

1. 문제: "배우는 게 왜 멈추는 걸까?" (플라스틱성 상실)

상상해 보세요. 한 학생이 매일 같은 과목만 공부하다가 어느 날 갑자기 새로운 과목을 배우게 된다고 칩시다. 처음엔 잘 배우다가 시간이 지나면, 머리가 굳어서 새로운 것을 받아들이기 어려워집니다.

AI 도 마찬가지입니다. AI 는 처음엔 새로운 경험을 통해 잘 배우지만 (이걸 **'플라스틱성 (Plasticity, 유연성)'**이라고 합니다), 시간이 지나면 뇌가 굳어져서 새로운 것을 배우는 능력이 떨어집니다. 이를 **'플라스틱성 상실'**이라고 부릅니다.

기존의 해결책은 **"완전 초기화"**였습니다. 마치 학생이 "아, 내가 너무 지쳐서 배울 수 없네. 아예 공부를 안 하고 처음부터 다시 시작하자!"라고 생각해서 모든 지식을 지우고 다시 시작하는 방식입니다.

  • 문제점: 지식을 다 지우면 당장 실력이 뚝 떨어집니다. 로봇이 걷다가 갑자기 넘어지거나, 게임 캐릭터가 죽는 것처럼 위험할 수 있습니다.

2. 해결책: AltNet (쌍둥이 네트워크)

저자들은 이 문제를 해결하기 위해 AltNet이라는 방법을 고안했습니다. 핵심 아이디어는 **"쌍둥이"**를 이용하는 것입니다.

🎭 비유: "현역 배우"와 "대기 배우"

AltNet 은 두 개의 똑같은 AI(쌍둥이) 를 가지고 있습니다.

  1. 현역 배우 (Active Network): 이 친구가 무대 (실제 환경) 에 나가서 연기를 합니다. 즉, 로봇이 실제로 움직이고 데이터를 수집합니다.
  2. 대기 배우 (Passive Network): 이 친구는 무대 뒤에서 현역 배우가 한 연기를 보며 공부합니다. (실제 행동은 하지 않고, 기록된 데이터를 통해 학습합니다.)

⏱️ 작동 원리: "교대 근무"

  • 일정 시간이 지나면: 현역 배우가 너무 지쳐서 (학습 능력이 떨어지면) 무대에서 내려옵니다.
  • 초기화: 내려온 현역 배우는 "아, 내가 너무 굳었네"라고 생각하며 모든 기억을 지우고 (초기화) 다시 준비합니다. 이때부터는 '대기 배우'가 됩니다.
  • 교대: 그동안 무대 뒤에서 열심히 공부해 온 '대기 배우'가 이제 현역이 되어 무대에 나갑니다. 이미 잘 배우고 준비된 상태라 실력이 떨어지지 않습니다.
  • 반복: 이렇게 두 명이 역할을 번갈아 가며, 한 명은 무대에서 일하고 다른 한 명은 뒤에서 쉬면서 공부합니다.

3. 왜 이 방법이 좋은가요?

  • 실수 없이 배우기: 기존 방법은 지식을 지우는 순간 실력이 떨어졌지만, AltNet 은 항상 "잘 준비된 배우"가 무대에 서기 때문에 실력이 떨어지지 않습니다.
  • 더 잘 배우기: 지식을 지우고 다시 시작하면 뇌가 다시 유연해져서 새로운 것을 훨씬 빠르게 배울 수 있습니다.
  • 데이터 효율성: 적은 데이터로도 더 잘 배웁니다. 마치 학생이 교실 (데이터) 에서 배운 내용을 복습하며 실력을 키우는 것과 같습니다.

4. 실험 결과

저자들은 이 방법을 로봇이 걷는 게임 (DeepMind Control Suite) 과 같은 복잡한 환경에서 테스트했습니다.

  • 기존 방법 (완전 초기화): 지식을 지우는 순간 로봇이 넘어지고 실력이 급락했습니다.
  • AltNet: 로봇이 넘어지지 않고, 오히려 더 빠르게, 더 안정적으로 높은 점수를 기록했습니다.

5. 결론

AltNet 은 **"배우는 능력을 유지하면서도, 실수를 하지 않고 안전하게 새로운 것을 배울 수 있는 방법"**을 제시합니다.

마치 교대 근무를 하는 두 명의 요리사처럼, 한 명은 손님을 위해 요리를 하고 (실제 행동), 다른 한 명은 뒤에서 레시피를 연구하며 (학습) 준비합니다. 요리사가 지치면 뒤에서 준비하던 사람이 대신 요리를 하고, 지친 사람은 뒤로 가서 휴식을 취하며 다시 배웁니다. 덕분에 식당 (AI 시스템) 은 항상 최고의 요리를 내며 멈추지 않고 운영될 수 있습니다.

이 방법은 안전이 중요한 자율 주행 자동차나 의료 로봇처럼, 실수가 치명적인 분야에서 AI 가 계속 발전할 수 있는 길을 열어줍니다.