Rare Event Analysis of Large Language Models

원저자: Jake McAllister Dorman, Edward Gillman, Dominic C. Rose, Jamie F. Mair, Juan P. Garrahan

게시일 2026-05-29

📖 4 분 읽기☕ 가벼운 읽기

원저자: Jake McAllister Dorman, Edward Gillman, Dominic C. Rose, Jamie F. Mair, Juan P. Garrahan

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

매우 재능이 있지만 약간 예측 불가능한 이야기꾼이 있다고 상상해 보세요. 이 이야기꾼 (대형 언어 모델, 또는 LLM) 은 고양이, 숲, 코뿔소에 관한 평범한 이야기를 들려주는 데 뛰어납니다. 그러나 확률적 기계이기 때문에 가끔 기이하거나 위험하거나 완전히 터무니없는 이야기를 할 수도 있습니다. 이러한 기이한 이야기들이 바로 "희귀 사건"입니다.

문제는 이러한 기이한 이야기들이 너무 드물어서, 이야기꾼에게 백만 번을 물어봐도 한 번도 들을 수 없다는 점입니다. 하지만 십억 번을 물어보면 (매일 수백만 명이 AI 를 사용하는 상황에서 발생함), 이러한 기이한 이야기들이 결국 나타나게 되며, 이로 인해 문제가 발생할 수 있습니다.

이 논문은 자연적으로 이러한 이야기들을 듣기 위해 십억 년을 기다릴 필요 없이, 이러한 "건초더미 속의 바늘" 같은 이야기들을 찾아내고, 연구하며, 이해하기 위해 설계된 새로운 도구 상자 같습니다.

다음은 저자들이 간단한 비유를 사용하여 설명한 그들의 방법입니다:

1. 문제: "침묵하는 도서관"

99.9% 의 책이 평범한 동화인 도서관을 상상해 보세요. 나머지 0.0001% 는 끔찍한 공포 이야기입니다. 그냥 들어와서 무작위로 책을 집어 든다면, 당신은 영원히 동화만 발견할 것입니다. 당신은 도서관이 100% 안전하다고 생각할지도 모릅니다. 하지만 충분히 기다린다면, 당신은 반드시 공포 이야기를 발견하게 될 것입니다.

저자들은 말합니다: "우리는 그렇게 오래 기다릴 수 없습니다. 우리는 공포 이야기들이 지금 어떤 모습이고 얼마나 위험한지 알기 위해, 그 이야기들을 찾을 수 있는 방법이 필요합니다."

2. 해결책: "마법 렌즈" (희귀 사건 분석)

드문 이야기들이 자연스럽게 나타나는 것을 기다리는 대신, 저자들은 물리학에서 차용한 기법 ( 희귀 사건 분석이라고 함) 을 사용합니다. 이는 드물고 무서운 이야기들이 훨씬 더 자주 나타나도록 만들면서, 동시에 그들이 실제로 얼마나 드문 것인지 추적할 수 있게 해주는 "마법 렌즈"를 착용하는 것과 같습니다.

그들은 이를 세 가지 주요 단계로 수행합니다:

단계 1: "괴물" 정의 (설정)
먼저 무엇을 찾고 있는지 결정해야 합니다. 읽기 너무 어려운 이야기일까요? 아니면 모델이 발생할 확률이 매우 낮다고 생각하는 이야기일까요? 저자들은 사냥할 두 가지 특정 "괴물"을 선택합니다:
- "지루한 괴물": 너무 복잡하거나 반복되어 읽을 수 없는 이야기들 ("가독성 지수"로 측정됨).
- "유령 이야기": 모델 자체가 발생할 확률이 극히 낮다고 생각하는 이야기들 ("로그 확률"로 측정됨).
단계 2: "밀어주기" (추정)
이러한 괴물들을 찾기 위해 저자들은 단순히 모델에게 "이야기를 들려줘"라고 하지 않습니다. 대신 **전이 경로 샘플링 (TPS)**이라는 기법을 사용합니다.
- 비유: 빽빽한 숲을 통과하는 특정 드문 경로를 찾고 있다고 상상해 보세요. 보통은 그냥 앞으로 걸어가면 주요 도로에 머무르게 됩니다.
- 밀어주기: 저자들은 이야기꾼을 드문 경로 쪽으로 부드럽게 밀어주는 "밀어주기" (수학적 편향) 를 사용합니다. 그들은 모델에게 이야기를 생성하게 한 다음, "이 부분은 너무 평범하네, 이야기 중간을 조금 더 기이하게 바꿔보자"라고 말합니다.
- 그들은 조각가가 돌덩이를 깎아내듯 이를 반복하여 이야기를 서서히 "기이한" 구역으로 이끕니다. 이야기가 산산조각 나지 않도록 서서히 진행하기 위해 "냉각 스케줄" (어닐링) 을 사용합니다.
단계 3: "수학적 거울" (탐색 및 보정)
그들은 이러한 드문 이야기들을 찾기 위해 모델을 "밀어줬기" 때문에, 그들이 찾은 이야기들은 100% 자연스럽지 않습니다. 그들은 "편향"되어 있습니다.
- 비유: 드문 벌레를 찾기 위해 돋보기를 사용했다고 상상해 보세요. 당신은 1,000 마리의 벌레를 찾았지만, 실제 세계에서는 10 마리만 존재합니다.
- 보정: 저자들은 MBAR(Multistate Bennett Acceptance Ratio)이라는 수학적 도구를 사용합니다. 이는 숫자를 보정하는 "수학적 거울"처럼 작용합니다. 그들이 찾은 1,000 마리의 벌레를 보고, "좋아, 우리가 돋보기를 사용했기 때문에, 실제 세계에서는 이것이 사실은 십억 분의 1 의 확률을 나타낸다는 것을 안다"라고 말합니다.
- 이를 통해 그들은 실험에서 강제로 발생시켰음에도 불구하고, 드문 사건이 발생할 진짜 확률을 계산할 수 있습니다.

3. 그들이 발견한 것

저자들은 TinyStories(어린이 이야기로 훈련된 모델) 라는 작은 모델에서 이를 테스트했습니다.

"읽기 어려운" 이야기들: 그들은 모델이 어린이를 위해 쓰도록 설계되었음에도 불구하고, 읽기가 매우 어려운 이야기들 (지루한 gibberish 로 쓰인 대학 수준의 논문과 같은) 을 생성할 수 있음을 발견했습니다. 이러한 이야기들은 드물지만, 존재합니다.
"반복" 트릭: 모델이 이러한 어려운 이야기들을 쓰려고 할 때, 종종 안전망인 반복에 의존합니다. 단어들을 반복해서 반복합니다 (예: "트루루루루... 트루루루루..."). 모델은 이것이 이야기를 이어가는 좋은 방법이라고 생각하지만, 인간에게는 결함처럼 보입니다.
"유령" 이야기들: 그들은 또한 모델이 발생할 확률이 너무 낮아 결코 일어나지 않아야 한다고 생각하지만, 밀어주었을 때 여전히 생성하는 이야기들도 발견했습니다.

4. 이것이 중요한 이유 (논문에 따르면)

이 논문은 AI 를 위해 완전한 "엔드 투 엔드" 시스템을 구축한 첫 번째 사례라고 주장합니다.

실용적인 가이드: 그들은 단순히 이론을 말하는 것이 아니라, 이를 수행하는 방법의 코드와 단계별 지침을 제공합니다.
효율성: 그들은 십억 년을 기다릴 필요가 없음을 증명했습니다. 그들의 "밀어주기"와 "수학적 거울" 기법을 사용하면 합리적인 시간 내에 이러한 드문 사건들을 찾을 수 있습니다.
일반성: 그들은 작은 모델에서 테스트했지만, 이 수학은 어떤 크기의 모델에도 적용됩니다.

요약

이 논문을 AI 를 위한 안전 검사관 매뉴얼이라고 생각하세요. 브레이크가 작동하는지 확인하기 위해 차가 추락하는 것을 기다리는 대신, 이 매뉴얼은 통제된 방식으로 의도적으로 차를 "충돌 구역"으로 몰아넣고, 추락할 확률을 정확히 측정하며, 추락 직전에 차가 무엇을 하는지 파악하는 방법을 가르쳐 줍니다. 이는 개발자들이 AI 가 실제 세계에서 위험한 말을 하거나 행동을 하지 못하도록 더 나은 "방호벽"을 구축하는 데 도움이 됩니다.

기술 요약: 대규모 언어 모델의 희귀 사건 분석

문제 제기
대규모 언어 모델 (LLM) 은 추론 과정에서 "희귀 사건"을 생성할 수 있는 확률적 시스템입니다. 희귀 사건은 매우 비전형적이지만 잠재적으로 중요한 출력입니다. 표준 개발 및 테스트는 이러한 사건의 낮은 확률로 인해 종종 이를 관찰하지 못하지만, LLM 배포의 막대한 규모로 인해 이러한 사건은 실제 운영 환경에서 무시할 수 없는 빈도로 발생할 수 있습니다. 이러한 사건을 분석하는 현재 방법론은 초기 단계에 있습니다. 직접 샘플링 (현재 최첨단 기술) 은 출력 분포의 꼬리 부분을 탐색하는 데 비효율적이며, 전형적인 출력보다 확률이 여러 차수 낮은 사건을 관찰하기 위해 종종 금지 수준에 달하는 계산 자원을 요구합니다. 본 논문은 LLM 에서 희귀 사건의 확률을 추정하고 그 구조적 속성을 탐색하기 위한 체계적인 엔드 투 엔드 프레임워크의 필요성에 대응합니다.

방법론
저자들은 통계 물리학과 계산 화학에서 차용하여, 특히 분자 역학을 위해 설계된 기법을 활용하는 희귀 사건 분석 (REA) 프레임워크를 제안합니다. 이 프레임워크는 설정 (Setup), 추정 (Estimation), 탐색 (Exploration) 의 세 단계로 구성됩니다.

확률 과정 공식화: LLM 은 토큰 시퀀스인 궤적 (trajectories) 을 생성하는 확률 과정으로 간주됩니다. 희귀 사건은 완성 (completion) 의 함수인 특정 "관측 가능량 (observable)"의 비전형적인 값으로 정의됩니다.
중요도 샘플링 및 편향: 직접 샘플링의 비효율성을 극복하기 위해 저자들은 **중요도 샘플링 (Importance Sampling)**을 활용합니다. 희귀 값의 샘플링을 장려하는 왜곡된 (편향된) 분포 $p_\lambda$ 를 생성하기 위해 "편향 관측 가능량"을 도입합니다. 목표 분포는 편향 매개변수 $\lambda$ 와 관측 가능량 $\phi$ 를 포함하는 지수 인자를 사용하여 재가중치됩니다.
전이 경로 샘플링 (TPS): 독립적인 샘플을 생성하는 대신, 저자들은 Metropolis-Hastings (MH) 알고리즘의 변형인 TPS 를 사용합니다. TPS 는 시퀀스에 편집을 제안함으로써 (임의의 지점에서 잘라낸 후 나머지 부분을 재생성) 궤적의 마르코프 체인을 생성합니다. 이는 시스템이 독립 샘플링보다 상태 공간을 더 효과적으로 탐색할 수 있게 합니다.
어닐링 및 MBAR: 수렴과 분포 꼬리의 커버리지를 보장하기 위해 저자들은 "어닐링" 프로토콜을 사용하여 여러 체인 전반에 걸쳐 편향 $\lambda$ 의 크기를 점진적으로 증가시킵니다. 그런 다음 다중 상태 베넷 수용 비율 (MBAR) 추정기를 사용하여 이러한 편향된 분포들로부터의 샘플을 결합하여 편향되지 않은 확률 밀도를 재구성합니다.
오차 분석: MBAR 추정치에 대해서는 부트스트랩 방법을, 직접 샘플링에 대해서는 윌슨 구간을 사용하여 통계적 신뢰 구간을 구성합니다. 수렴은 Gelman-Rubin (GR) 통계량을 사용하여 모니터링됩니다.

실험 설정
이 프레임워크는 아동용 이야기로 훈련된 소형 LLM 인 TinyStories-8M 모델을 사용하여 시연됩니다. 두 가지 관측 가능량이 분석됩니다.

로그 확률: 모델이 자신의 출력을 얼마나 확률적으로 여기는지를 측정하는 완성의 자연 로그 확률입니다.
자동 가독성 지수 (ARI): 텍스트 복잡성을 측정하는 언어학적 지표입니다. TinyStories 는 어린이를 위해 훈련되었으므로 높은 ARI 점수는 "원치 않는" 또는 정렬되지 않은 행동 (복잡한 텍스트) 을 나타냅니다.

저자들은 약 420 만 개의 완성을 생성하는 직접 샘플링과 편향된 궤적을 통해 유사한 수의 토큰을 생성하는 MBAR 을 적용한 TPS를 비교합니다.

주요 결과

확률 추정: MBAR/TPS 접근법은 직접 샘플링으로 접근 가능한 값보다 여러 차수 작은 분포 꼬리 부분의 확률을 성공적으로 추정합니다. 직접 샘플링은 꼬리 부분에서 빈 구간 (empty bins) 을 생성하는 반면, MBAR 은 전체 범위에 걸쳐 밀도 추정을 제공합니다.
오차 감소: 꼬리 영역에서 MBAR 추정치의 신뢰 구간 (CI) 의 상대적 폭은 직접 샘플링의 경우보다 현저히 작아, 희귀 사건에 대해 더 높은 정밀도를 나타냅니다.
모델 행동 통찰:
- 로그 확률: 로그 확률 분포는 강하게 비가우시안적입니다.
- ARI: 모델은 훈련 데이터에 비해 분포 밖 (out-of-distribution) 인 복잡한 텍스트인 극도로 높은 ARI 점수를 가진 완성을 생성하며, 이러한 출력은 모델에 의해 높은 로그 확률을 부여받습니다.
- 메커니즘: 탐색적 데이터 분석 (EDA) 은 이러한 높은 ARI 및 높은 확률의 완성이 종종 극단적인 토큰 반복 (예: "Trururururu...") 을 나타낸다는 것을 보여줍니다. 모델은 훈련 영역을 넘어 외삽할 때 높은 가능도를 유지하기 위해 반복 패턴에 의존하는 것으로 보입니다.
프록시 식별: 이 연구는 연속 토큰 반복 횟수와 같은 간단한 프록시가 극단적인 ARI 값과 상관관계가 있음을 보여주어, 희귀 사건의 런타임 필터링을 위한 잠재적 메커니즘을 시사합니다.

의의 및 기여
이 논문은 LLM 에 희귀 사건 분석 기법을 적용한 최초의 완전한 엔드 투 엔드 사례를 제시한다고 주장합니다. 주요 기여점은 다음과 같습니다.

프레임워크: LLM 의 희귀 사건을 체계적으로 연구하기 위한 실용적이고 모듈식 프레임워크 (설정, 추정, 탐색).
구현 가이드: 이론, 생성 전략 (TPS), 확률 추정 (MBAR), 오차 분석을 다루는 상세한 가이드로, 이러한 고급 통계 물리학 도구를 ML 연구자에게 접근 가능하게 만듭니다.
실증적 검증: 소형 모델을 사용하여 (생산 훈련에 비해) modest 한 계산 예산으로도 희귀 사건 확률을 정확하게 추정할 수 있음을 시연하여, 더 큰 모델로의 확장 가능성을 시사합니다.
정렬에 대한 통찰: 분포 밖 영역을 탐구하는 능력은 표준 테스트가 놓칠 수 있는 특정 실패 모드 (예: 반복 텍스트 생성) 를 드러냅니다.

저자들은 이 연구가 소형 모델을 사용하지만 이론적 방법은 모델에 구애받지 않는다고 강조합니다. 그들은 생산 모델에 대한 향후 적용은 분야 간 협력과 잠재적으로 적응형 편향, 병렬 어닐링, 또는 제안 분포로 소형 모델 사용과 같은 알고리즘적 개선이 필요할 것이라고 언급하지만, 현재 작업은 이해하고 제어하기 위한 실행 가능한 시작점을 확립합니다. 희귀하고 잠재적으로 안전하지 않거나 중요한 LLM 행동에 대한 이해와 제어를 위한 시작점입니다.

1. 문제: "침묵하는 도서관"

2. 해결책: "마법 렌즈" (희귀 사건 분석)

3. 그들이 발견한 것

4. 이것이 중요한 이유 (논문에 따르면)

요약

기술 요약: 대규모 언어 모델의 희귀 사건 분석

유사한 논문