Online Causal Kalman Filtering for Stable and Effective Policy Optimization

이 논문은 토큰 수준의 중요도 샘플링 비율의 높은 분산으로 인한 정책 최적화의 불안정성을 해결하기 위해, 과거 토큰의 상태에 기반하여 오프라인으로 추정된 중요도 비율을 칼만 필터링을 통해 실시간으로 보정하는 '온라인 인과적 칼만 필터링 기반 정책 최적화 (KPO)' 방법을 제안하고 수학 추론 작업에서 뛰어난 성능을 입증합니다.

Shuo He, Lang Feng, Xin Cheng, Lei Feng, Bo An

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎓 비유: "혼란스러운 교실과 현명한 담임 선생님"

1. 문제 상황: 소음에 휩싸인 교실

인공지능 (LLM) 이 수학 문제를 풀면서 스스로 학습할 때, 마치 수천 명의 학생이 동시에 떠드는 교실과 같습니다.

  • 기존 방식 (GRPO 등): 선생님이 "이 학생이 맞았으니 점수를 주고, 틀렸으니 깎아라"라고 할 때, 학생 한 명 한 명의 반응 (각 단어) 을 개별적으로 보다가, 때로는 너무 큰 소음 (변동성) 때문에 혼란이 생깁니다.
    • 예: "이 단어는 확실히 맞는데, 바로 다음 단어는 실수해서 점수가 급락했다"라고 하면, AI 는 "내가 뭘 해야 할지 모르겠다"며 학습이 불안정해집니다. (학습이 붕괴됨)
  • 기존 해결책 (시퀀스 레벨): "아, 이 학생은 전체적으로 잘했으니 전체 점수만 평균내자!"라고 합니다. 하지만 이렇게 하면 세부적인 맥락 (어디서 잘하고 어디서 못했는지) 을 무시하게 되어, 정교한 학습이 어렵습니다.

2. 새로운 발견: "갑작스러운 기분 전환"은 이상하다

저자들은 데이터를 분석해보니, AI 가 학습할 때 단어 하나하나의 점수 변화가 너무 자주, 너무 급격하게 바뀌는 것을 발견했습니다.

  • 마치 학생이 "지금 1 초는 천사, 1 초 뒤는 악마, 또 1 초 뒤는 천사"처럼 기분 전환을 너무 자주 하는 것과 같습니다.
  • 실제로는 AI 가 어떤 논리 흐름 (추론 과정) 을 따라갈 때는 그 흐름이 일정하게 유지되어야 하는데, 계산상의 오류 (소음) 때문에 신호가 요동치는 것입니다.

3. 해결책: KPO (칼만 필터링을 쓴 현명한 담임)

이 논문은 **'온라인 인과 칼만 필터링 (KPO)'**이라는 새로운 방법을 제안합니다. 이를 현명한 담임 선생님에 비유해 볼까요?

  • 과거의 경험과 현재를 연결: 담임 선생님은 학생이 "지금 실수했다"고 해도, "아까까지 잘하고 있었으니 이건 일시적인 실수일 뿐이야"라고 판단합니다.
  • 소음 제거 (Noise Smoothing): 학생의 급격한 기분 전환 (소음) 은 무시하고, 전체적인 흐름 (구조) 을 따라가게 합니다.
    • 예: "이 학생은 10 단어를 연속해서 잘 풀고 있었어. 11 번째 단어에서 실수했더라도, 전체적인 흐름은 '잘하고 있는 중'이야."
  • 미래는 모른다 (인과적): 담임 선생님은 과거와 현재의 정보만 가지고 미래를 예측합니다. (미래의 정답을 미리 알 수 없으므로) 그래서 AI 가 단어를 하나씩 생성해 나가는 방식과 완벽하게 맞습니다.

4. 결과: 더 안정적이고 똑똑한 학습

이 방법을 적용한 결과:

  • 학습이 안정됨: AI 가 "내가 뭘 해야 할지 모르겠다"며 공황에 빠지는 일이 줄었습니다.
  • 성능 향상: 특히 복잡한 수학 문제를 풀 때, 기존 방법들보다 훨씬 높은 점수를 받았습니다.
  • 맥락 유지: 전체 점수만 평균내는 게 아니라, "어디서 잘하고 어디서 실수했는지"라는 세부적인 맥락도 살려냈습니다.

💡 핵심 요약 (한 줄 정리)

"AI 가 학습할 때 단어 하나하나의 점수 변동이 너무 심해 혼란스러워하는 문제를, '과거의 흐름을 기억하며 소음만 걸러내는 현명한 필터 (칼만 필터)'를 통해 해결함으로써, 더 안정적이고 똑똑한 학습을 가능하게 했다."

이 기술은 AI 가 더 복잡한 문제 (수학, 논리 등) 를 풀 때, 실수를 반복하지 않고 차분하게 추론할 수 있도록 도와주는 '학습의 안정장치' 역할을 합니다.