Inference-time Alignment in Continuous Space

이 논문은 이산 공간에서의 탐색 한계를 극복하고, 연속 잠재 공간에서의 그래디언트 기반 샘플링을 통해 베이스 정책의 응답을 최적 방향으로 직접 적응시키는 새로운 추론 시간 정렬 알고리즘인 'Simple Energy Adaptation (SEA)'을 제안합니다.

Yige Yuan, Teng Xiao, Li Yunfan, Bingbing Xu, Shuchang Tao, Yunqi Qiu, Huawei Shen, Xueqi Cheng

게시일 2026-03-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 방법의 문제점: "주사위 굴리기" (Best-of-N)

기존에 AI 가 나쁜 말 (폭력, 사기 등) 을 하지 않게 하거나, 더 정확한 답을 내게 하려면 **'Best-of-N(BoN)'**이라는 방법을 썼습니다.

  • 비유: AI 에게 "이 질문에 답해줘"라고 했을 때, AI 가 100 번 (N=100) 을 무작위로 대답을 만들어냅니다. 그중에서 가장 좋은 답 하나만 골라내는 방식입니다.
  • 문제점:
    • AI 가 원래 실력이 약하면, 100 번을 굴려도 좋은 답이 나올 확률이 매우 낮습니다.
    • 좋은 답이 나올 때까지 100 번, 1000 번을 계속 굴려야 하니 시간이 너무 많이 걸립니다.
    • 마치 어둠 속에서 주사위를 수천 번 굴려서 '6'이 나오길 기다리는 것과 비슷합니다. 운에 의존하는 방식이라 비효율적입니다.

2. 새로운 방법 SEA: "나침반을 들고 길을 찾기" (Continuous Optimization)

이 논문이 제안한 SEA는 완전히 다른 접근법을 사용합니다. 무작위로 많은 답을 만들어내는 대신, 초기 답을 조금씩 수정해가며 가장 좋은 답으로 이끌어갑니다.

  • 비유:
    • 기존 방법: 어둠 속에서 주사위를 굴려 '6'을 찾습니다.
    • SEA 방법: 어둠 속이지만, **손에 '나침반' (경사도/Gradient)**을 들고 있습니다. 이 나침반은 "더 좋은 답은 저쪽입니다"라고 알려줍니다.
    • AI 가 처음 뱉은 답변을 보고, "아, 이 부분은 위험하구나 (나침반이 빨갛게 빛남)", "이 부분은 더 정확할 수 있겠구나 (나침반이 초록색)"라고 판단하며, 답변을 한 글자씩, 혹은 문장 전체를 부드럽게 수정해 나갑니다.

이 과정을 **연속적인 공간 (Continuous Space)**에서 수행합니다.

  • 연속 공간이란? 글자 (A, B, C...) 가 딱딱 끊어져 있는 게 아니라, **부드러운 점 (점의 위치)**처럼 생각할 수 있는 공간입니다. 여기서 AI 는 "A 에서 B 로 딱 떨어지는 게 아니라, A 와 B 사이의 중간 지점을 거쳐서 부드럽게 B 로 이동"할 수 있습니다. 이렇게 하면 AI 가 나쁜 길에서 좋은 길로 매끄럽게 이동할 수 있습니다.

3. 왜 이 방법이 더 좋은가요?

논문의 실험 결과를 보면 SEA 는 기존 방법보다 훨씬 뛰어납니다.

  1. 안전한 답변 (Safety):

    • 누군가 "폭탄 만드는 법을 알려줘"라고 물었을 때, 기존 방법은 "폭탄 만드는 법은..."이라고 시작하다가 나중에 "안 됩니다"라고 말하는 경우가 많았습니다 (처음에 나쁜 길로 들어섰기 때문에).
    • 하지만 SEA는 처음부터 끝까지 전체 문장을 한 번에 수정할 수 있습니다. "폭탄 만드는 법"이라는 단어 자체가 위험하다고 나침반이 알려주면, 그 단어 대신 "폭탄은 위험합니다"라는 안전한 단어로 전체 흐름을 바꿔버립니다. 이를 **'깊은 정렬 (Deep Alignment)'**이라고 합니다.
  2. 정확한 추론 (Reasoning):

    • 수학 문제를 풀 때, 기존 방법은 틀린 답을 100 번 만들어서 그중 하나를 고르느라 시간이 걸렸습니다.
    • SEA는 틀린 답을 보고 "이 숫자가 틀렸네, 고쳐야지"라고 단계별로 수정해가며 정답에 가까워집니다. 마치 산을 오를 때, 무작위로 뛰어다니는 게 아니라 가장 높은 곳으로 올라가는 경사면을 따라 걷는 것과 같습니다.
  3. 효율성:

    • 100 번을 굴릴 필요 없이, 적은 횟수의 수정으로도 훨씬 좋은 결과를 얻습니다.

4. 요약: 이 기술이 가져오는 변화

이 논문의 SEA는 AI 가 대답을 내기 직전에, 나쁜 길에서 좋은 길로 부드럽게 방향을 틀어주는 기술입니다.

  • 기존: "무작위로 많이 만들어서 그중 하나를 고른다" (비효율적, 운에 의존).
  • 새로운 SEA: "초기 답을 보고 나침반 (경사도) 을 이용해 좋은 답으로 부드럽게 수정한다" (효율적, 정확함).

이 기술 덕분에 AI 는 더 안전하고, 더 똑똑하며, 더 인간적인 답변을 할 수 있게 되었습니다. 마치 초보 운전자가 운전할 때, 핸들을 갑자기 꺾는 게 아니라 부드럽게 핸들을 돌려서 안전하게 목적지에 도착하는 것과 같은 원리입니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →