Safety Training Persists Through Helpfulness Optimization in LLM Agents

Each language version is independently generated for its own context, not a direct translation.

🚗 비유: "안전 운전 교육"과 "배달 속도 경쟁"

상상해 보세요. 우리가 **운전면허를 가진 새로운 기사 (AI)**를 고용했습니다.

초기 상태 (Source Models):
처음 고용된 기사들은 "빨리 배달하는 것"에만 집중하느라, 신호를 무시하거나 위험한 차선을 넘나드는 등 안전하지 않게 운전합니다. (논문 결과에 따르면, 시중의 오픈소스 AI 모델들은 대부분 이런 상태였습니다.)
1 단계 훈련: 안전 교육 (Safety Training)
우리는 이 기사들에게 "안전 운전 교육"을 시켰습니다.
- 결과: 기사들은 이제 신호를 지키고, 위험한 상황에서는 멈추는 법을 배웠습니다. 사고율이 확 줄었습니다.
2 단계 훈련: 배달 속도 교육 (Helpfulness Training)
이제 사장님이 "더 빨리 배달해서 고객 만족도를 높여라!"라고 주문합니다. 우리는 이 기사들에게 다시 "도움이 되는 법 (빠른 배달)"을 가르쳤습니다.
- 기존의 예상 (과거의 연구들): "아, 안전 교육을 받은 뒤 다시 속도 교육을 시키면, 기사들은 다시 무모하게 운전해서 안전성이 다 사라지겠지?"라고 생각했습니다. 마치 안전벨트를 매고 있다가, 빨리 가라고 하면 다시 벗어던지는 것처럼요.
- 이 논문의 놀라운 발견: 그렇지 않았습니다!
  안전 교육을 받은 뒤 속도 교육을 시켜도, 기사들은 안전 운전 습관을 거의 그대로 유지했습니다. 속도만 조금 더 빨라졌을 뿐, 여전히 신호를 지키고 위험을 피했습니다.

🔍 이 연구가 왜 중요한가요?

1. "안전은 한 번 배우면 잊지 않는다" (Safety Persists)

기존 연구들은 AI 에게 새로운 것을 가르치면 이전의 안전 장치가 깨진다고 했습니다. 하지만 이 연구는 안전 교육이 AI 의 뇌에 '뿌리'를 내리게 하여, 이후의 다른 교육 (도움됨) 이 그 뿌리를 뽑아내지 못한다는 것을 발견했습니다.

비유: 마치 안전 운전 교육을 받은 사람이 "빨리 가라"는 명령을 들어도, 본능적으로 브레이크를 밟는 습관이 생기는 것과 같습니다.

2. "안전과 도움은 상충관계 (Trade-off) 가 아니다?"

우리는 보통 "안전하면 도움이 덜 되고, 도움이 많으면 위험하다"고 생각합니다. 하지만 이 연구는 안전과 도움이 서로 완전히 반대되는 극단으로만 갈 수 있다는 것을 보여줍니다.

비유: 안전과 도움은 마치 산의 등반과 같습니다.
- 한쪽 끝은 '안전하지만 아무것도 안 하는 상태' (정상)
- 다른 쪽 끝은 '무모하게 빨리 가지만 위험한 상태' (절벽)
- AI 는 이 두 극단 사이를 오가는 등반로 (파레토 프론티어) 위에 있습니다.
- 중요한 점은, 안전 교육을 먼저 받으면 등반로가 '안전한 쪽'으로 쏠려서, 그 뒤로 도움 교육을 해도 그 등반로 위에서만 움직일 뿐, 다시 절벽으로 떨어지지 않는다는 것입니다.

3. "최고의 해결책은 쉽게 찾을 수 없다"

연구진은 "안전하면서도 도움이 되는 완벽한 방법"이 데이터에 이미 존재한다고 생각했습니다. 하지만 AI 를 훈련시켜도 그 '완벽한 방법'을 찾아내지 못했습니다.

비유: 마치 "안전하고 빠른 차"가 이미 주차장에 있는데, 운전사 (AI) 가 그 차를 타는 법을 배우지 못하고, 그냥 "안전한 차"나 "빠른 차" 중 하나만 골라 타는 것과 같습니다. AI 는 두 마리 토끼를 다 잡는 방법을 스스로 발견하는 데 실패했습니다.

💡 결론: 우리가 무엇을 배웠나요?

현재 AI 는 안전하지 않다: 우리가 쓰는 대부분의 AI 는 '안전한 행동'을 하지 않고, 무조건 행동하려는 경향이 강합니다. (예: 약을 처방할 때 의사와 상의 없이 바로 처방하는 등)
안전 교육은 효과가 있다: AI 에게 안전을 먼저 가르치면, 그 안전성이 이후의 다른 교육에도 지속적으로 유지됩니다. 이는 AI 를 안전하게 만드는 데 매우 희망적인 소식입니다.
더 많은 연구가 필요하다: AI 가 "안전하면서도 완벽한 도움"을 주는 방법을 스스로 찾아내지 못하므로, 우리가 더 나은 교육 방법과 기준을 만들어줘야 합니다.

한 줄 요약:

"AI 에게 안전 운전을 먼저 가르쳐 두면, 나중에 빨리 가라고 시켜도 그 안전 습관은 쉽게 깨지지 않습니다. 하지만 AI 가 스스로 '안전하고 빠른' 완벽한 방법을 찾아내기는 어렵기 때문에, 우리가 더 잘 가르쳐줘야 합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경: 기존 LLM 안전성 연구는 주로 단일 단계의 '채팅 (Chat)' 환경에 집중되어 왔습니다. 이 환경에서 '안전성'은 해로운 요청을 거절하는 능력으로 정의됩니다.
새로운 도전: 최근 LLM 은 외부 세계와 직접 상호작용하는 '에이전트 (Agent)'로 진화하고 있습니다. 에이전트 환경에서는 해로운 요청을 거절하는 것뿐만 아니라, 에이전트가 직접 취하는 행동 (Action) 자체가 해로울 수 있습니다.
핵심 문제:
1. 비적대적 (Non-adversarial) 위험: 악의적인 의도가 없는 정당한 요청 (예: "환자 약량 업데이트", "디스크 공간 확보를 위해 파일 삭제") 이라도 에이전트가 맥락을 잘못 이해하거나 위험한 상황을 간과하면 치명적인 사고를 초래할 수 있습니다.
2. 훈련의 불안정성: 기존 연구에 따르면, 안전성 (Safety) 훈련을 받은 모델이라도 이후 유용성 (Helpfulness) 훈련을 거치면 안전성이 쉽게 무너진다고 알려져 있습니다.
3. 연구 질문: 에이전트 환경에서 안전성 훈련을 먼저 수행한 후, 유용성 최적화를 수행할 때 안전성 향상이 유지될 것인가? 그리고 안전성과 유용성을 동시에 최적화하면 '최적의 균형 (Best of both worlds)' 전략을 찾을 수 있는가?

2. 방법론 (Methodology)

벤치마크: ToolEmu
- Ruan et al. (2023) 의 ToolEmu 를 사용했습니다. 144 개의 다단계 작업으로 구성되며, 에이전트는 시뮬레이션된 도구를 사용하여 작업을 수행합니다.
- 평가 지표: 각 트래젝토리 (Trajectory) 에 대해 **안전성 (Safety)**과 **유용성 (Helpfulness)**을 별도로 0~3 점으로 평가합니다.
- 안전성 정의: 해로운 요청 거절뿐만 아니라, 의료 기록 수정, 긴급 상황 대응 등 실제 행동에서 발생할 수 있는 위험을 포함합니다.
실험 설계
- 모델: Llama 3.1 8B, Qwen 2.5 7B, Phi 4 (14B) 등 3 가지 오픈 가중치 모델을 'Source Model'로 사용했습니다.
- 데이터 생성: 27 개의 다양한 LLM 을 사용하여 144 개 태스크에 대한 3,888 개의 트래젝토리를 수집했습니다.
- 평가자 (Evaluator): 수집된 트래젝토리를 평가하기 위해 Qwen 3 32B Thinking 과 GPT-5 mini 를 사용했습니다. 안전성과 유용성을 분리하여 평가하기 위해 프롬프트를 수정했습니다.
- 학습 방법: 직접 선호도 최적화 (Direct Preference Optimization, DPO) 를 사용했습니다. LoRA (Low-Rank Adaptation) 를 적용하여 효율적으로 미세 조정을 수행했습니다.
- 훈련 시나리오:
  1. 단일 훈련: 안전성 (S) 만 또는 유용성 (H) 만 훈련.
  2. 순차 훈련: S 후 H 훈련 (S,H), H 후 S 훈련 (H,S).
  3. 동시 훈련: 안전성과 유용성을 동시에 최적화 (S&H).
- 제어 변수: DPO 의 강도를 조절하는 하이퍼파라미터 $\beta$ (0.05, 0.1) 와 3 가지 무작위 시드를 사용했습니다.

3. 주요 기여 및 결과 (Key Contributions & Results)

A. 오픈 가중치 모델의 초기 안전성 부재

실험에 사용된 모든 오픈 가중치 모델 (Source Models) 은 ToolEmu 환경에서 안전성 점수가 매우 낮았습니다.
원인 분석: 모델들이 '행동 편향 (Bias for action)'을 보였습니다. 즉, 정보를 수집하거나 위험을 확인하기보다, 첫 번째 기회에 바로 행동을 취하려는 경향이 강했습니다. 이는 개발사들이 수행한 안전성 훈련이 복잡한 에이전트 환경으로 전이되지 못했음을 시사합니다.

B. 안전성 훈련의 지속성 (Safety Persistence) - 핵심 발견

기존 통념과 반대: 채팅 환경에서는 유용성 훈련이 안전성을 쉽게 무너뜨리는 것으로 알려져 있었으나, 에이전트 환경에서는 안전성 훈련이 유용성 훈련을 거친 후에도 강력하게 유지되었습니다.
정량적 결과:
- 안전성 훈련 (S) 후 유용성 훈련 (H) 을 수행한 모델 (S,H) 은 안전성 훈련만 한 모델 (S) 과 유사한 수준의 안전성을 유지했습니다.
- 지속성 지표 (Persistence Metric): $\beta=0.05$ (공격적인 최적화) 일 때 평균 **90%**의 안전성 향상이 유지되었고, $\beta=0.1$ 일 때는 **94%**까지 유지되었습니다.
- 이는 안전성 훈련이 모델의 행동 패턴을 단순히 변경하는 것을 넘어, **추가 훈련에 대한 저항성 (Resistance)**을 부여하여 안정화시켰음을 시사합니다.

C. 유용성 훈련의 지속성 부재

반대로, 유용성 훈련 (H) 후 안전성 훈련 (S) 을 수행한 경우, 유용성 향상분은 대부분 안전성 훈련에 의해 상쇄되었습니다. 안전성 훈련이 유용성보다 더 강력한 영향을 미쳤습니다.

D. 파레토 프론티어 (Pareto Frontier) 의 선형성

모든 훈련 구성 (단일, 순차, 동시) 은 안전성과 유용성 간의 선형적인 파레토 프론티어 위에 위치했습니다 ( $R^2 = 0.77$ ).
동시 훈련의 한계: 안전성과 유용성을 동시에 최적화하려는 시도 (S&H) 는 '두 마리 토끼를 다 잡는' 이상적인 전략을 찾지 못했습니다. 단순히 기존 프론티어 위의 다른 점에 머무는 결과만 나왔습니다.
데이터 내 존재: DPO 데이터셋에는 안전성과 유용성을 모두 만족하는 '최적 전략' (예: 정보를 수집한 후 사용자에게 옵션 제시) 이 존재함에도 불구하고, 모델은 이를 학습하지 못했습니다.

4. 의의 및 시사점 (Significance)

에이전트 안전성 패러다임의 전환: 기존 채팅 중심의 안전성 연구 (해로운 요청 거절) 와는 다른, 행동 기반 안전성의 중요성을 강조했습니다.
안전성 훈련의 안정성 발견: 에이전트 환경에서는 안전성 훈련이 유용성 최적화에도 불구하고 유지된다는 것은, 에이전트 배포 시 안전성 보장에 희망적인 신호입니다. 이는 모델이 특정 '안전한 수렴 영역 (Basin of Attraction)'으로 이동하여 추가 훈련에 저항하게 될 가능성을 시사합니다.
다목적 최적화의 한계: 단순히 손실 함수를 결합하거나 동시 훈련을 한다고 해서 안전성과 유용성을 동시에 극대화하는 전략이 자동으로 발견되지는 않음을 보여주었습니다.
향후 연구 방향:
- 왜 채팅 환경과 에이전트 환경에서 안전성 지속성에 차이가 발생하는지 메커니즘 규명 필요.
- 더 나은 에이전트 벤치마크 개발 (현재는 144 개 태스크로 샘플 수가 적음).
- 안전성 훈련이 모델의 가중치 공간에서 어떻게 '안전한 최적점'으로 이동시키는지 이해.

5. 결론

이 논문은 LLM 에이전트에서 안전성 훈련이 유용성 최적화를 거친 후에도 지속적으로 유지됨을 최초로 증명했습니다. 이는 기존 연구들이 주장했던 "안전성과 유용성은 상충되어 한쪽을 훈련하면 다른 쪽이 무너진다"는 통념을 에이전트 맥락에서 수정하며, 안전성 훈련이 모델의 행동을 근본적으로 안정화시킬 수 있음을 시사합니다. 그러나 동시에 모델이 데이터 내에 존재하는 이상적인 안전 - 유용성 균형을 스스로 발견하지 못한다는 점은 향후 더 정교한 훈련 전략과 벤치마크 개발의 필요성을 제기합니다.