DRAFT: Task Decoupled Latent Reasoning for Agent Safety

Each language version is independently generated for its own context, not a direct translation.

🚨 문제: "긴 대화 속의 바늘 찾기"

상상해 보세요. AI 가 100 페이지 분량의 긴 보고서 (대화 기록) 를 작성하고 있습니다. 그중 단 한 줄만 "내가 은행 계좌를 털겠다"라고 말하고 나머지는 다 평범한 대화입니다.

기존의 AI 감시 시스템은 이 긴 보고서를 한 번에 훑어보며 "위험해?"라고 판단하려 했습니다. 하지만 문제는 중요한 위험 신호가 너무 희미하고, 긴 대화 속에 숨어 있어서 AI 가 그걸 놓치기 쉽다는 점입니다. 마치 거대한 밀가루 더미 속에 숨겨진 바늘 하나를 찾으라고 하는 것과 비슷하죠. 그래서 AI 는 "아, 다 괜찮은 것 같아!"라고 잘못 판단하는 경우가 많았습니다.

💡 해결책: DRAFT (드래프트) 시스템

이 논문은 이 문제를 해결하기 위해 DRAFT라는 새로운 시스템을 제안합니다. 이 시스템은 두 명의 전문가가 팀을 이루어 일하는 방식과 같습니다.

1. 역할 분담: "요약하는 사람"과 "판단하는 사람"

기존 방식은 한 사람이 긴 보고서를 읽으면서 동시에 요약하고 판단하려 했다면, DRAFT 는 두 사람으로 나눕니다.

추출기 (Extractor) - "요약 전문가"
- 이 사람은 긴 대화 기록 (100 페이지) 을 읽지 않고, **중요한 핵심만 뽑아내어 아주 짧은 '비밀 메모 (잠재적 초안)'**를 만듭니다.
- 이 메모는 사람이 읽는 글이 아니라, AI 만이 이해할 수 있는 압축된 데이터입니다.
- 비유: 긴 뉴스 영상을 보고 "오늘의 핵심은 A 씨가 은행을 털었다는 사실 하나"만 적힌 3 줄짜리 메모를 작성하는 기자라고 생각하세요.
추론기 (Reasoner) - "판단 전문가"
- 이 사람은 원래의 긴 대화 기록과, 요약 전문가가 만든 비밀 메모를 함께 봅니다.
- 메모를 통해 "아, 여기서 위험한 일이 있었구나!"라고 쉽게 알아차리고 최종 판단을 내립니다.
- 비유: 긴 사건 기록과 함께 "핵심은 은행 털기"라는 메모를 받은 형사가, 메모를 보고 "이건 위험하다!"라고 바로 결론 내리는 상황입니다.

2. 왜 이 방식이 좋은가요? (창의적인 비유)

기존 방식 (한 번에 다 하기):
- 긴 대화 속에서 위험 신호를 찾으려다 보면, AI 는 주의가 산만해집니다. (Attention Dilution)
- 마치 수백 개의 사탕이 섞인 상자에서 독이 든 사탕 하나를 찾으라고 하면, AI 는 사탕을 다 먹어치우느라 독이 든 사탕을 놓치는 것입니다.
DRAFT 방식 (잠재적 공간에서의 추론):
- DRAFT 는 AI 가 글자 (텍스트) 로 요약해서 쓰지 않고, 머릿속의 **비밀 공간 (잠재적 공간)**에서 바로 핵심을 압축합니다.
- 비유: 요약 전문가가 긴 대화 내용을 마법 같은 압축기에 넣어서 "위험 신호"만 남긴 작은 보석으로 만듭니다. 그리고 판단 전문가는 그 보석만 보면 되니까, 눈을 크게 뜨고 위험 여부를 정확히 판단할 수 있습니다.
- 이 과정에서 AI 는 불필요한 설명을 쓰지 않아도 되므로 속도가 빠르고, 중요한 정보만 집중해서 학습할 수 있습니다.

🏆 결과: 얼마나 잘할까요?

이 시스템을 테스트한 결과, 기존 방법들보다 정확도가 63% 에서 91% 로 크게 향상되었습니다.

기존 AI: 긴 대화 속에서 위험을 놓치고 "안전하다"고 잘못 판단하는 경우가 많았습니다.
DRAFT: 핵심만 쏙쏙 뽑아내어, 위험한 신호를 놓치지 않고 정확히 찾아냅니다.

📝 한 줄 요약

"긴 대화 속에서 위험한 바늘을 찾으려면, AI 가 긴 글을 다 읽으려 하지 말고, '핵심 요약 메모'를 머릿속에서 먼저 만들고 그걸 보고 판단하게 하세요. 그게 바로 DRAFT 입니다!"

이 방법은 AI 가 도구를 사용하며 복잡한 작업을 할 때, 우리가 AI 를 더 안전하게 관리할 수 있는 길을 열어줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

LLM 기반 에이전트가 외부 도구를 사용하고 복잡한 환경과 상호작용하는 시대에, 안전성 모니터링은 단순한 최종 출력 텍스트의 유해성 검토에서 긴 상호작용 궤적 (Trajectory) 전체의 감사로 전환되었습니다. 그러나 기존 접근 방식은 다음과 같은 근본적인 한계를 겪고 있습니다.

희소하고 잡음이 많은 증거 (Sparse & Noisy Evidence): 위험한 행동은 긴 대화 흐름 중 극히 일부 단계에서만 발생하며, 대부분의 상호작용은 정상적입니다. 이로 인해 위험 신호가 잡음에 묻히기 쉽습니다.
약한 지도 학습 (Weak Supervision): 이진 분류 (안전/위험) 라벨만 제공되는 경우, 모델이 긴 시퀀스 내에서 위험한 단계를 정확히 식별하고 할당 (Credit Assignment) 하는 것이 어렵습니다.
기존 방법의 한계:
- 단일 단계 학습 (One-stage): 긴 시퀀스를 직접 입력받아 라벨을 예측하는 방식은 위험 신호에 대한 그래디언트 도달이 약해 representations 가 안전/위험 샘플로 잘 분리되지 않습니다.
- 명시적 요약 후 판단 (Summarize-then-Judge): 중간에 텍스트 요약을 생성하는 방식은 지연 시간 (Latency) 을 증가시키고, 생성된 요약의 스타일 편차에 민감하며, 정보 손실 (Lossy) 이 발생할 수 있습니다.

2. 제안 방법: DRAFT (Methodology)

논문은 **DRAFT (Task Decoupled Latent Reasoning for Agent Safety)**라는 새로운 프레임워크를 제안합니다. 이는 안전성 판단을 **증거 추출 (Evidence Extraction)**과 **의사 결정 판독 (Decision Readout)**으로 분리하여, **연속적인 잠재 공간 (Continuous Latent Space)**에서 추론을 수행하는 구조입니다.

핵심 아키텍처

Extractor (추출기):
- 긴 에이전트 궤적 $X$ 를 입력받아 **압축된 연속 잠재 드래프트 (Compact Continuous Latent Draft, $S$ )**를 생성합니다.
- 이는 명시적인 텍스트 요약이 아닌, LoRA 어댑터를 통해 학습되는 잠재 벡터입니다.
- 역할: 긴 시퀀스 내의 잡음을 제거하고 위험에 결정적인 증거 (Risk-critical evidence) 만을 집약합니다.
Reasoner (추론기):
- 원래 궤적의 임베딩 $P$ 와 Extractor 가 생성한 잠재 드래프트 $S$ 를 결합 ( $Y = [P; S]$ ) 하여 최종 안전성 라벨을 예측합니다.
- 역할: 집약된 증거를 바탕으로 안전/위험 경계를 학습합니다.
교차 공간 투영 (Cross-Space Projection):
- 추출기와 추론기가 서로 다른 특징 공간에 있을 수 있으므로, 경량 프로젝터를 통해 두 공간 간의 정렬을 수행합니다.
- Transformer 의 멀티헤드 어텐션 메커니즘을 활용하여 단일 잠재 드래프트 내에서도 암묵적인 다중 스레드 추출 및 융합이 일어나도록 설계되었습니다.

학습 목표

기존의 단일 목적 함수 대신, 추출기 ( $\phi_\gamma$ ) 와 추론기 ( $h_\lambda$ ) 를 분리된 파라미터 공간에서 최적화하는 분리된 목적 함수를 사용합니다.
$\min_{\gamma, \lambda} \mathbb{E} [\ell(h_\lambda(\phi_\gamma(X), X), y)]$
이 방식은 연속적인 잠재 공간에서 증거를 집약함으로써, 명시적인 텍스트 생성 없이도 엔드 - 투 - 엔드 (End-to-End) 차분 가능 훈련을 가능하게 합니다.

3. 주요 기여 (Key Contributions)

잠재 추론 프레임워크 도입: 에이전트 안전성 평가를 위해 명시적 텍스트 생성 없이 연속 잠재 공간에서 증거 집약과 의사 결정을 분리하는 새로운 패러다임을 제시했습니다.
약한 지도 하의 학습 효율성 개선: 긴 시퀀스에서의 희소 위험 신호에 대한 할당 문제를 해결하여, 기존 단일 단계 학습보다 훨씬 안정적인 그라디언트 흐름을 확보했습니다.
효율성과 성능의 균형: 추가적인 추론 지연 시간 (Explicit reasoning latency) 을 발생시키지 않으면서, SFT 나 LoRA 기반의 기존 방법보다 월등히 높은 정확도를 달성했습니다.
광범위한 검증: 다양한 백본 모델 (Qwen3, Llama-3.1 등) 과 벤치마크 (ASSEBench, R-Judge, AuraGen) 에서 일관된 성능 향상을 입증했습니다.

4. 실험 결과 (Results)

성능 향상:
- ASSEBench에서 기존 LoRA 방법 (63.27%) 대비 **91.18%**로 정확도가 크게 향상되었습니다.
- Qwen3-8B 기준 ASSEBench 에서 58.69% (Vanilla) → 91.57% (DRAFT), AuraGen 에서 60.53% → **92.06%**로 획기적인 개선을 보였습니다.
- 다른 강력한 베이스라인 (SFT, LoRA, AgentAuditor 등) 을 모두 압도했습니다.
표현력 분리 (Separability):
- t-SNE 시각화 결과, DRAFT 는 안전/위험 샘플이 명확하게 분리된 잠재 공간을 형성하는 반면, 기존 LoRA-SFT 는 두 클래스가 뒤섞인 (Entangled) 분포를 보였습니다.
추론 길이 민감도 (Length Sensitivity):
- 잠재 드래프트의 길이가 너무 짧으면 정보 손실이, 너무 길면 최적화 노이즈가 발생합니다. 실험 결과 약 16 토큰 (Ls=16) 부근에서 최적의 성능을 보였습니다.
삽입 위치 (Insertion Position):
- 잠재 드래프트를 시퀀스 **끝 (Tail)**에 삽입하는 것이 가장 효과적이었으며, 이는 Transformer 의 최근성 편향 (Recency Bias) 과 관련이 있습니다.
모듈 시너지:
- Extractor 나 Reasoner 중 하나를 제거할 경우 성능이 급격히 하락하여, 두 모듈의 협력 (Synergy) 이 성능 향상의 핵심임을 입증했습니다.

5. 의의 및 결론 (Significance)

이 논문은 긴 문맥 (Long-context) 과 약한 지도 (Weak Supervision) 하에서 에이전트 안전성을 판단하는 데 있어 명시적 텍스트 생성 없이 연속 잠재 공간에서 추론을 수행하는 것이 가장 실용적이고 강력한 해결책임을 증명했습니다.

실용성: 추가적인 추론 지연 없이 경량 어댑터 (LoRA) 만으로 배포 가능한 안전성 감시 시스템을 구축할 수 있습니다.
일반화: 다양한 모델 아키텍처와 도메인에서 강력한 일반화 능력을 보여주며, 에이전트 안전성 연구의 새로운 표준을 제시합니다.
미래 방향: 잠재 공간에서의 증거 집약은 에이전트뿐만 아니라 긴 문맥과 희소 신호가 중요한 다른 의사 결정 작업에도 적용 가능한 범용 패러다임으로 평가됩니다.

요약하자면, DRAFT는 에이전트 안전성 평가의 핵심 병목 현상인 "긴 시퀀스 내 희소 위험 신호 식별" 문제를, 잠재 공간에서의 분리된 추론 메커니즘을 통해 해결함으로써 기존 방법론의 한계를 극복한 획기적인 연구입니다.