Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?

이 논문은 강화 학습 후 학습 (RPT) 이 학습 데이터와 유사한 작업에서는 큰 성능 향상을 보이지만, 추론 패턴이 다른 미처 보지 못한 도메인으로의 일반화 능력은 일관되지 않거나 사라질 수 있음을 관찰 및 개입 연구를 통해 규명했습니다.

Chuxuan Hu, Yuxuan Zhu, Antony Kellermann, Caleb Biddulph, Suppakit Waiwitlikhit, Jason Benn, Daniel Kang

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (LLM) 이 수학이나 코딩 문제를 풀 때의 능력을 강화하는 훈련을 시켰는데, 그 능력이 다른 분야 (예: 법률, 의학, 금융) 로도 잘 퍼져나갈까?"**라는 질문에 대한 답을 찾는 연구입니다.

결론부터 말하면, **"아직은 그 능력이 다른 분야로 잘 넘어가지 않습니다."**입니다.

이 복잡한 연구를 누구나 이해할 수 있도록 세 가지 핵심 비유로 설명해 드리겠습니다.


1. 비유: "수학 천재가 법조인이 될 수 있을까?"

이 연구는 인공지능을 특수 훈련을 받은 학생이라고 상상해 보세요.

  • 기존의 생각: "이 학생이 수학 문제를 엄청나게 잘 풀게 훈련을 받았으니, 논리력이 좋아져서 법학이나 의학 문제도 잘 풀겠지?"라고 기대했습니다.
  • 이 연구의 발견: 아니었습니다.
    • 수학/코딩 훈련을 받은 AI: 수학 문제와 코딩 문제에서는 천재처럼 변했습니다. 하지만 법률 문서 해석이나 의학 진단 같은 복잡한 상황에서는 오히려 훈련을 받지 않은 상태보다 더 못 풀기도 했습니다.
    • 법률/의학 훈련을 받은 AI: 반대로 법률이나 의학 데이터로 훈련을 받으면, 수학이나 코딩 문제에서는 그럭저럭 잘 풀었습니다.

핵심: AI 는 훈련받은 **'문제 해결 방식 (패턴)'**에 특화되어 있을 뿐, 그 방식이 모든 상황에通用的으로 적용되는 것은 아닙니다.

2. 비유: "레고 vs. 점토" (구조화된 문제 vs. 비구조화된 문제)

논문은 문제의 성격을 두 가지로 나눕니다.

  • 레고 (수학, 코딩): 정해진 규칙이 있고, 정답이 명확하며, 단계별로 쌓아 올리는 문제입니다.
    • 결과: 레고 조립법을 배운 AI 는 다른 종류의 레고 (다른 수학 문제나 다른 프로그래밍 언어) 를 조립하는 데도 아주 잘 적응합니다. 레고와 레고 사이는 잘 통합니다.
  • 점토 (법률, 의학, 금융): 정해진 규칙이 없고, 상황에 따라 해석이 달라지며, 모호한 정보가 많습니다.
    • 결과: 레고 (수학/코딩) 조립법을 배운 AI 가 점토 (법률/의학) 를 다루려고 하면, "이건 레고가 아니잖아?"라며 당황하고 실수를 저지릅니다.
    • 반대 경우: 점토를 다루는 법을 배운 AI 는 레고도 어느 정도 잘 다룹니다. 점토를 빚을 때 필요한 '창의성'과 '맥락 파악' 능력이 레고에도 도움이 되기 때문입니다.

핵심: 규칙이 명확한 문제 (레고) 는 서로 통하지만, 규칙이 모호한 문제 (점토) 와는 통하지 않습니다.

3. 비유: "전문가 훈련의 함정"

연구자들은 AI 를 훈련시킬 때, 한 가지 분야 (예: 수학) 만 집중적으로 가르쳤습니다.

  • 초반: AI 는 수학 문제를 아주 잘 풀게 됩니다. (성공!)
  • 중반: 훈련이 계속될수록, AI 는 수학 문제만 더 잘 풀게 되지만, 다른 문제 (예: 코딩이나 법률) 를 풀 때는 오히려 실력이 떨어집니다.
  • 이유: AI 가 훈련 데이터에 너무 깊이 빠져서 (과적합), "세상의 모든 문제는 수학 문제처럼 풀어야 해!"라고 착각하게 되기 때문입니다.

핵심: 훈련을 너무 깊게 하면, 오히려 다른 분야에 대한 유연성을 잃고 편협해집니다.


📝 한 줄 요약

"AI 에게 수학이나 코딩을 가르치면 그 분야에서는 천재가 되지만, 그 능력이 법률이나 의학 같은 다른 분야로 자연스럽게 퍼져나가지는 않습니다. 마치 '레고 조립법'을 배운 사람이 '점토 조형'을 잘할 수 없는 것과 같습니다."

이 연구는 AI 개발자들이 "한 가지 분야만 가르쳐서 모든 문제를 해결할 수 있다"는 착각을 버리고, 각 분야에 맞는 별도의 훈련 전략이 필요하다는 점을 깨닫게 해줍니다.