Rare Event Analysis of Large Language Models

본 논문은 대규모 언어 모델의 방대한 규모와 확률적 특성에서 비롯된 과제를 해결하기 위해 생성, 확률 추정, 오류 분석을 위한 실용적 도구를 제공하는 대규모 언어 모델에서 드물지만 중요한 사건을 체계적으로 분석하기 위한 엔드투엔드 프레임워크를 제시한다.

원저자: Jake McAllister Dorman, Edward Gillman, Dominic C. Rose, Jamie F. Mair, Juan P. Garrahan

게시일 2026-05-29
📖 4 분 읽기☕ 가벼운 읽기

원저자: Jake McAllister Dorman, Edward Gillman, Dominic C. Rose, Jamie F. Mair, Juan P. Garrahan

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

매우 재능이 있지만 약간 예측 불가능한 이야기꾼이 있다고 상상해 보세요. 이 이야기꾼 (대형 언어 모델, 또는 LLM) 은 고양이, 숲, 코뿔소에 관한 평범한 이야기를 들려주는 데 뛰어납니다. 그러나 확률적 기계이기 때문에 가끔 기이하거나 위험하거나 완전히 터무니없는 이야기를 할 수도 있습니다. 이러한 기이한 이야기들이 바로 "희귀 사건"입니다.

문제는 이러한 기이한 이야기들이 너무 드물어서, 이야기꾼에게 백만 번을 물어봐도 한 번도 들을 수 없다는 점입니다. 하지만 십억 번을 물어보면 (매일 수백만 명이 AI 를 사용하는 상황에서 발생함), 이러한 기이한 이야기들이 결국 나타나게 되며, 이로 인해 문제가 발생할 수 있습니다.

이 논문은 자연적으로 이러한 이야기들을 듣기 위해 십억 년을 기다릴 필요 없이, 이러한 "건초더미 속의 바늘" 같은 이야기들을 찾아내고, 연구하며, 이해하기 위해 설계된 새로운 도구 상자 같습니다.

다음은 저자들이 간단한 비유를 사용하여 설명한 그들의 방법입니다:

1. 문제: "침묵하는 도서관"

99.9% 의 책이 평범한 동화인 도서관을 상상해 보세요. 나머지 0.0001% 는 끔찍한 공포 이야기입니다. 그냥 들어와서 무작위로 책을 집어 든다면, 당신은 영원히 동화만 발견할 것입니다. 당신은 도서관이 100% 안전하다고 생각할지도 모릅니다. 하지만 충분히 기다린다면, 당신은 반드시 공포 이야기를 발견하게 될 것입니다.

저자들은 말합니다: "우리는 그렇게 오래 기다릴 수 없습니다. 우리는 공포 이야기들이 지금 어떤 모습이고 얼마나 위험한지 알기 위해, 그 이야기들을 찾을 수 있는 방법이 필요합니다."

2. 해결책: "마법 렌즈" (희귀 사건 분석)

드문 이야기들이 자연스럽게 나타나는 것을 기다리는 대신, 저자들은 물리학에서 차용한 기법 ( 희귀 사건 분석이라고 함) 을 사용합니다. 이는 드물고 무서운 이야기들이 훨씬 더 자주 나타나도록 만들면서, 동시에 그들이 실제로 얼마나 드문 것인지 추적할 수 있게 해주는 "마법 렌즈"를 착용하는 것과 같습니다.

그들은 이를 세 가지 주요 단계로 수행합니다:

  • 단계 1: "괴물" 정의 (설정)
    먼저 무엇을 찾고 있는지 결정해야 합니다. 읽기 너무 어려운 이야기일까요? 아니면 모델이 발생할 확률이 매우 낮다고 생각하는 이야기일까요? 저자들은 사냥할 두 가지 특정 "괴물"을 선택합니다:

    • "지루한 괴물": 너무 복잡하거나 반복되어 읽을 수 없는 이야기들 ("가독성 지수"로 측정됨).
    • "유령 이야기": 모델 자체가 발생할 확률이 극히 낮다고 생각하는 이야기들 ("로그 확률"로 측정됨).
  • 단계 2: "밀어주기" (추정)
    이러한 괴물들을 찾기 위해 저자들은 단순히 모델에게 "이야기를 들려줘"라고 하지 않습니다. 대신 **전이 경로 샘플링 (TPS)**이라는 기법을 사용합니다.

    • 비유: 빽빽한 숲을 통과하는 특정 드문 경로를 찾고 있다고 상상해 보세요. 보통은 그냥 앞으로 걸어가면 주요 도로에 머무르게 됩니다.
    • 밀어주기: 저자들은 이야기꾼을 드문 경로 쪽으로 부드럽게 밀어주는 "밀어주기" (수학적 편향) 를 사용합니다. 그들은 모델에게 이야기를 생성하게 한 다음, "이 부분은 너무 평범하네, 이야기 중간을 조금 더 기이하게 바꿔보자"라고 말합니다.
    • 그들은 조각가가 돌덩이를 깎아내듯 이를 반복하여 이야기를 서서히 "기이한" 구역으로 이끕니다. 이야기가 산산조각 나지 않도록 서서히 진행하기 위해 "냉각 스케줄" (어닐링) 을 사용합니다.
  • 단계 3: "수학적 거울" (탐색 및 보정)
    그들은 이러한 드문 이야기들을 찾기 위해 모델을 "밀어줬기" 때문에, 그들이 찾은 이야기들은 100% 자연스럽지 않습니다. 그들은 "편향"되어 있습니다.

    • 비유: 드문 벌레를 찾기 위해 돋보기를 사용했다고 상상해 보세요. 당신은 1,000 마리의 벌레를 찾았지만, 실제 세계에서는 10 마리만 존재합니다.
    • 보정: 저자들은 MBAR(Multistate Bennett Acceptance Ratio)이라는 수학적 도구를 사용합니다. 이는 숫자를 보정하는 "수학적 거울"처럼 작용합니다. 그들이 찾은 1,000 마리의 벌레를 보고, "좋아, 우리가 돋보기를 사용했기 때문에, 실제 세계에서는 이것이 사실은 십억 분의 1 의 확률을 나타낸다는 것을 안다"라고 말합니다.
    • 이를 통해 그들은 실험에서 강제로 발생시켰음에도 불구하고, 드문 사건이 발생할 진짜 확률을 계산할 수 있습니다.

3. 그들이 발견한 것

저자들은 TinyStories(어린이 이야기로 훈련된 모델) 라는 작은 모델에서 이를 테스트했습니다.

  • "읽기 어려운" 이야기들: 그들은 모델이 어린이를 위해 쓰도록 설계되었음에도 불구하고, 읽기가 매우 어려운 이야기들 (지루한 gibberish 로 쓰인 대학 수준의 논문과 같은) 을 생성할 수 있음을 발견했습니다. 이러한 이야기들은 드물지만, 존재합니다.
  • "반복" 트릭: 모델이 이러한 어려운 이야기들을 쓰려고 할 때, 종종 안전망인 반복에 의존합니다. 단어들을 반복해서 반복합니다 (예: "트루루루루... 트루루루루..."). 모델은 이것이 이야기를 이어가는 좋은 방법이라고 생각하지만, 인간에게는 결함처럼 보입니다.
  • "유령" 이야기들: 그들은 또한 모델이 발생할 확률이 너무 낮아 결코 일어나지 않아야 한다고 생각하지만, 밀어주었을 때 여전히 생성하는 이야기들도 발견했습니다.

4. 이것이 중요한 이유 (논문에 따르면)

이 논문은 AI 를 위해 완전한 "엔드 투 엔드" 시스템을 구축한 첫 번째 사례라고 주장합니다.

  • 실용적인 가이드: 그들은 단순히 이론을 말하는 것이 아니라, 이를 수행하는 방법의 코드와 단계별 지침을 제공합니다.
  • 효율성: 그들은 십억 년을 기다릴 필요가 없음을 증명했습니다. 그들의 "밀어주기"와 "수학적 거울" 기법을 사용하면 합리적인 시간 내에 이러한 드문 사건들을 찾을 수 있습니다.
  • 일반성: 그들은 작은 모델에서 테스트했지만, 이 수학은 어떤 크기의 모델에도 적용됩니다.

요약

이 논문을 AI 를 위한 안전 검사관 매뉴얼이라고 생각하세요. 브레이크가 작동하는지 확인하기 위해 차가 추락하는 것을 기다리는 대신, 이 매뉴얼은 통제된 방식으로 의도적으로 차를 "충돌 구역"으로 몰아넣고, 추락할 확률을 정확히 측정하며, 추락 직전에 차가 무엇을 하는지 파악하는 방법을 가르쳐 줍니다. 이는 개발자들이 AI 가 실제 세계에서 위험한 말을 하거나 행동을 하지 못하도록 더 나은 "방호벽"을 구축하는 데 도움이 됩니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →