An Empirical Audit of k-NAF Budget Accounting for Anchored Decoding

상상해 보세요. 매우 엄격한 사서 (안전 모델) 와 창의적이지만 약간 장난기 많은 이야기꾼 (위험 모델) 이 있다고 가정해 봅시다. 이야기꾼은 이야기를 전하고 싶어 하지만, 한 가지 규칙이 있습니다: 사서의 책에서 너무 많이 복사해서는 안 된다는 것입니다. 만약 그들이 사서의 정확한 단어에 너무 가까워지면, 그들은 자신의 예산을 '사용'하는 것입니다.

제공된 논문은 이야기꾼을 통제하도록 설계된 '앵커드 디코딩 (Anchored Decoding)'이라는 특정 규칙집 (구체적으로 k-NAF 시스템) 에 대한 상세한 점검 (감사) 입니다. 목표는 이야기꾼이 한계에 도달했을 때 이 규칙집이 약속대로 실제로 작동하는지 확인하는 것이었습니다.

다음은 연구자들이 발견한 내용을 간단한 비유로 정리한 것입니다:

1. 설정: '사용' 규칙

이야기꾼의 예산을 연료 탱크로 생각하세요.

한도: 규칙집은 "전체 이야기에서 총 K 단위의 연료만 사용할 수 있다"고 말합니다.
미터: 시스템은 이야기꾼이 쓰는 모든 단어 (토큰) 마다 얼마나 많은 연료가 사용되는지 추적하려고 시도합니다.
목표: 이야기꾼이 이야기가 끝날 전에 연료가 고갈되지 않도록 하고, 더 중요하게는 사서의 책에서 너무 많이 '도용' (복사) 하지 않도록 보장하는 것입니다.

2. 첫 번째 테스트: '고정 작업량' (일상 루틴)

연구자들은 먼저 이야기꾼에게 6 가지 다른 장르 (예: '중립적 사실', '창의적 소설', '공격 프롬프트' 등) 에 걸쳐 약 8,500 개의 서로 다른 이야기를 쓰도록 요청했습니다. 그들은 시스템을 속이려고 시도한 것이 아니라, 단순히 시스템이 정상적으로 어떻게 작동하는지 보고 싶었습니다.

결과: 이야기꾼은 매우 보수적이었습니다. 그들은 전체 연료 탱크의 약 **15% 에서 30%**만 사용했습니다.
비유: 100 갤런 탱크가 있는 차를 운전하는 것과 같지만, 멈추기 전에 20 마일만 운전합니다. 엄청난 양의 '여유분' (추가 공간) 이 있는 것과 같습니다.
점검: 그들은 또한 이야기들이 사서의 책과 얼마나 유사한지 확인했습니다. 겹침은 매우 작았습니다 (해변에서 두 개의 동일한 모래알을 찾는 것과 같습니다).
결론: 일상적인 사용에서는 시스템이 완벽하게 작동하며 매우 안전합니다.

3. 두 번째 테스트: '적대적 검색' (스트레스 테스트)

다음으로 연구자들은 시스템을 '부수기' 위해 노력했습니다. 그들은 수천 개의 까다로운 프롬프트를 생성하는 똑똑한 컴퓨터 프로그램 (최적화 도구) 을 사용하여 이야기꾼이 전체 연료 탱크를 사용하도록 강요할 단 하나의 이야기를 찾아내려 했습니다. 그들은 시스템을 속여서 '과다 사용'하게 만들 수 있는지 확인하고 싶었습니다.

결과: 그들은 매우 근접했습니다! '사용 비율'이 한도의 **98.8%**에 도달한 것처럼 보이는 프롬프트를 발견했습니다.
'위반': 몇 가지 특정 사례에서 수학적으로 이야기꾼이 연료의 100% 이상을 사용했다고 나왔습니다 (비율이 1 보다 큼). 이는 실패처럼 보였습니다.

4. 반전: '소표본' 착시

여기서 이 논문의 가장 중요한 부분이 나옵니다. 연구자들은 '위반'이 이야기꾼이 실제로 규칙을 어긴 것이 아니라는 것을 깨달았습니다. 이는 너무 적은 데이터를 바라봄으로써 발생한 수학적 착시였습니다.

비유: 농구 팀의 평균 키를 추측하려고 한다고 상상해 보세요.
- 시나리오 A: 4 명의 선수를 측정합니다. 한 명이 평균보다 약간 더 큽니다. 표본이 매우 작기 때문에 '안전 마진' (통계적 버퍼) 이 매우 큽니다. 실제 평균이 6 피트 5 인치일지라도 계산 결과가 "평균은 7 피트다!"라고 나올 수 있습니다.
- 시나리오 B: 20 명의 선수를 측정합니다. 평균은 6 피트 5 인치라는 실제 숫자로 안정화됩니다.
논문에서 일어난 일:
- 시스템은 까다로운 프롬프트에 대한 평가를 4 개의 이야기 (작은 표본 크기) 만으로 중단했습니다.
- 표본이 매우 작기 때문에 수학 공식 내의 '안전 마진'이 매우 커져서 사용량이 한도를 초과한 것처럼 ( '위반'처럼) 보이게 했습니다.
- 연구자들이 시스템에게 20 개의 이야기 (더 큰 표본) 로 동일한 프롬프트를 평가하도록 강요했을 때, '위반'은 사라졌습니다. 사용 비율은 안전한 26%~40% 수준으로 다시 떨어졌습니다.

5. 최종 판결

논문은 두 가지 주요 교훈으로 결론을 내립니다:

시스템은 작동합니다: '앵커드 디코딩' 규칙집은 제 역할을 하고 있습니다. 이야기꾼은 실제로 연료 탱크를 태우거나 사서의 책을 복사하지 않습니다. 사실, 그들은 매우 신중합니다.
수학은 조정이 필요합니다: 사용량을 측정하는 도구 (프록시) 는 충분한 데이터가 없을 때 혼란을 겪습니다. 몇 가지 예시만 보일 때 너무 크게 경보를 울립니다.

권장 사항:
저자들은 이 시스템을 테스트할 때 4 개의 이야기만으로 중단해서는 안 된다고 제안합니다. 명확한 그림을 얻으려면 최소 20 개의 이야기가 될 때까지 기다려야 합니다. 그렇게 하면 '오경보'가 사라지고 시스템이 실제로 매우 안전하다는 것을 확인할 수 있습니다.

요약하자면: '경비견' (시스템) 은 훌륭한 일을 하고 있습니다. '경보 시스템' (수학 도구) 은 단순히 짖기 전에 더 많은 증거를 기다려야 할 뿐입니다.

기술적 요약: 고정된 디코딩을 위한 k-NAF 예산 회계의 실증 감사

문제 제기
본 논문은 생성 모델에서 "근접 접근 자유성 (near access-freeness, k-NAF)"을 강제하도록 설계된 메커니즘인 **고정된 디코딩 (Anchored Decoding)**의 실증적 유효성을 다룹니다. 고정된 디코딩의 핵심 목표는 (잠재적으로 저작권이 있는 데이터로 훈련된) 통제된 디코더와 (해당 데이터 없이 훈련된) 지정된 안전한 참조 모델 간의 발산을 제한하는 것입니다. 이는 로컬, 토큰별 제약의 조합을 통해 시퀀스 수준의 Kullback-Leibler (KL) 예산 $K = kT_{max}$ 를 강제함으로써 운영화됩니다.

조사된 핵심 질문은 이 메커니즘의 구체적인 구현이 현실적인 작업 부하와 적대적 스트레스 하에서 의도된 회계 행동을 실제로 실현하는지 여부입니다. 구체적으로 저자들은 디코더가 예산을 소진하도록 강제될 수 있는지, 또는 회계 메커니즘 (특히 지출을 추정하는 데 사용되는 실증 베르누이 스타일 대리 모델) 이 소표본 조건에서 신뢰할 수 있게 작동하는지 여부를 묻습니다.

방법론
감사는 차등 프라이버시 감사에서 사용되는 테스터/파인더 분리 방식을 반영하는 2 단계 설계를 사용합니다:

1 단계: 고정 작업 부하 진단 평가
- 범위: 중립, 검증, 테스트, 공격 훈련, 사실적, 창의적 등 6 가지 프롬프트 클래스에 걸쳐 약 8,500 회의 무작위 실행을 수행하며, 토큰별 예산 매개변수 $k \in \{3, 5\}$ 두 값을 사용했습니다 ( $T_{max}=200$ ).
- 지표: 연구는 단계별 KL 지출을 기록하고 이를 집계하여 누적 지출 대리 모델인 UEBB(Upper Empirical Bernstein Bound) 를 계산합니다. 이 대리 모델은 표본 평균, 분산 항, 그리고 유효 범위 ( $R_{eff}$ ) 와 표본 크기 ( $M$ ) 에 의존하는 결정론적 항을 결합합니다.
- 통제: 실행은 프로토콜 의존적 진단을 보장하기 위해 공통 무작위 수 배칭을 사용합니다. 표면 형태 복사를 측정하기 위해 사용 가능한 참조에 대해 ROUGE-L 및 5-gram Jaccard 중첩 진단이 계산됩니다.
2 단계: 적응형 적대적 탐색
- 목표: 대리 지출 비율 $\rho = \text{UEBB} / B_{eff}$ 를 최대화하는 것 ( $B_{eff}$ 는 유효 잔여 예산).
- 과정: 최적화 모델이 후보 프롬프트를 제안하면, 학습된 대리 모델 (Sentence-T5 임베딩 + TF-IDF 위의 MLP) 이 이를 순위 매깁니다. 탐색은 다중 충실도 평가를 활용합니다: 프롬프트는 $N=4$ 개의 궤도에 대한 최소 할당으로 시작합니다. 생존자 테스트는 현재 UEBB 가 예산 임계값 아래에 남아 있는지 여부에 따라 프롬프트를 더 큰 할당 (최대 $N=20$ 또는 $30$) 으로 "상향 조정"할지 결정합니다.
- 스트레스 테스트: 탐색은 대리 비율이 1 에 가깝거나 그 이상으로 밀어붙이는 프롬프트를 식별하기 위해 4 세대 동안 실행됩니다.

주요 기여

고정 작업 부하 감사: 고정되고 클래스별 층화된 작업 부하 하에서 평균 누적 KL 지출은 구성된 시퀀스 수준 예산 ( $K \in \{600, 1000\}$ ) 보다 현저히 낮음을 보여줍니다. 일반적으로 예산의 약 30% 만 차지합니다. 실증 베르누이 대리 모델은 모든 클래스에서 $K$ 미만으로 유지되며, 표면 중첩 지표는 낮습니다.
적응형 탐색 결과: 탐색 절차는 $k=3$ 에서 $\rho \approx 0.988$ , $k=5$ 에서 $\rho \approx 0.760$ 까지 대리 지출 비율을 성공적으로 높였습니다. 그러나 탐색은 궤도별 의미에서 예산을 명확히 소진하는 프롬프트를 생성하지는 못했습니다.
대리 모델 인공물 진단: 본 논문은 $k=3$ $k = 3$ 에서 저작권 도메인 홀드아웃 작업 부하에서 관찰된 apparent "위반"( $\rho > 1$ $ρ > 1$ ) 은 소표본 크기 ( $N=4$ $N = 4$ ) 에서의 실증 베르누이 대리 모델의 인공물임을 식별합니다.
- $N=4$ 에서 베르누이 경계의 결정론적 항이 계산 우위를 점하여 평균 지출이 낮음에도 불구하고 UEBB 추정을 과대평가합니다.
- 더 큰 할당 ( $N=20$ ) 이나 더 높은 예산 ( $k=5$ ) 으로 동일한 프롬프트를 재평가하면 비율이 $\rho \in [0.26, 0.40]$ 으로 붕괴되어 디코더가 실제로 예산을 초과하지 않았음을 확인합니다.

결과

예산 여력: 고정 작업 부하에서 평균 지출은 일관되게 $\lesssim 0.3K$ 입니다. 보수적인 범위 매개변수를 사용하더라도 UEBB 는 $K$ 미만으로 유지됩니다.
표면 중첩: ROUGE-L 점수는 $\le 0.20$ 이고 5-gram Jaccard 점수는 $\le 0.05$ 로, 고정 작업 부하에서verbatim(逐語) 복사가 제한적임을 나타냅니다.
"위반" 인공물: 홀드아웃 세트의 세 가지 프롬프트가 $k=3$ $k = 3$ 에서 $\rho > 1$ $ρ > 1$ 을 보였습니다. 분석 결과:
- 평균 지출은 약 180-200 이었습니다 ( $K=600$ 보다 훨씬 낮음).
- 결정론적 베르누이 항만으로도 $N=4$ 에서 유효 예산의 71~97% 를 차지했습니다.
- $N$ 을 20 으로 늘리거나 $K$ 를 1000 ( $k=5$ ) 으로 두 배로 늘리면 "위반"이 해결되어 $\rho < 0.5$ 를 산출했습니다.
탐색 한계: 적대적 탐색은 초기 시드 프롬프트보다 크게 개선되지 못했습니다. $k=3$ 에 대한 아카이브 최대값은 첫 번째 세대에서 설정된 후 정적 상태로 남아 있었으며, 이는 대리 모델이 포화 상태였으며 탐색이 최적화보다는 시드 품질에 의해 주도되었음을 시사합니다.

의의 및 주장
본 논문은 고정된 디코딩 구현이 구성된 예산에 비해 상당한 여력을 보이며 테스트된 조건 하에서 실패하지 않았다고 결론 내립니다. 이 작업의 주요 의의는 감사 방법론 자체에 대한 진단에 있습니다:

대리 모델 vs 메커니즘: 본 연구는 디코딩 메커니즘의 행동과 이를 감사하는 데 사용되는 통계적 대리 모델의 행동을 구분합니다. "위반"은 디코더에 의한 예산 소진의 증거가 아니라, 소표본 할당 ( $N=4$ ) 하에서 대리 모델이 엄격하지 못하게 된 실패였습니다.
프로토콜 권장 사항: 저자는 향후 감사에서 이러한 인공물을 방지하기 위해 구체적인 프로토콜 수정을 제안합니다:
1. 높은 예비 지출 비율을 가진 프롬프트에 대해 최소 표본 크기 바닥 (예: $N \ge 20$ ) 을 강제합니다.
2. 불확실성을 나타내기 위해 점 추정치와 함께 베르누이 경계의 너비를 보고합니다.
3. 보수적인 최악의 경우 경계 대신 데이터 의존적 범위 매개변수 ( $R_{eff}$ ) 를 사용합니다.
4. 적응형 샘플링 하에서 안전 메커니즘을 평가할 때 능력 격차와 암기 발산을 혼동하지 않도록 안전한 앵커와 위험한 목표 간의 능력 매칭을 보장합니다.

저자들은 이것이 형식적 검증이 아닌 실증 감사임을 명시적으로 밝히며, 결과가 적응형 샘플링 하에서 안전 메커니즘을 평가할 때 신중한 대리 모델 보정의 필요성을 강조한다고 주장합니다.