Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

이 논문은 열의 순열 불변성을 구조적 사전 지식으로 인코딩한 순열 상대 정책 최적화 (PRPO) 기반 강화학습 프레임워크를 제안하여, 대규모 언어 모델이 표 데이터 예측에서 기존 최첨단 모델들을 능가하는 수치 추론 능력을 발휘하도록 함으로써 적은 감독 하에서도 탁월한 성능을 달성함을 보여줍니다.

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"대형 언어 모델 (LLM) 이 표 (Table) 데이터를 분석할 때, 왜 그렇게 서툴렀는지, 그리고 어떻게让它를 '수학 천재'로 만들었는지"**에 대한 이야기입니다.

기존의 AI 는 표 데이터를 볼 때 마치 **"문서만 읽는 도서관 사서"**처럼 행동했습니다. 숫자의 크기나 관계를 깊이 있게 이해하지 못해, 복잡한 계산이 필요하면 엉뚱한 답을 내놓곤 했죠. 이 논문은 그 문제를 해결하기 위해 **'PRPO'**라는 새로운 훈련 방법을 제안합니다.

이 내용을 쉽게 이해할 수 있도록 세 가지 비유로 설명해 드릴게요.


1. 문제: "문서만 읽는 사서" vs "숫자를 아는 천재"

  • 기존 상황: 대형 언어 모델 (LLM) 은 책이나 블로그 글을 엄청나게 많이 읽어서 말은 잘하지만, 표 (Table) 안에 있는 숫자를 볼 때는 약합니다.
    • 예를 들어, "고객의 나이, 소득, 대출 금액"이 있는 표를 주면, "대출을 승인할까요?"라고 물었을 때 논리적으로 생각하기보다는 단순히 단어의 패턴만 보고 답을 내뱉습니다.
    • 마치 문법만 외운 학생이 수학 문제를 풀 때, 공식은 외웠지만 숫자를 계산하는 법을 몰라 엉뚱한 답을 내는 것과 같습니다.
  • 왜 그랬을까요? AI 를 훈련시킬 때, "정답이 맞으면 점수 1 점, 틀리면 0 점"처럼 결과만 보고 점수를 줍니다 (희소 보상).
    • 비유: 아이가 수학 문제를 풀 때, 정답을 맞히기 전까지 "아직 모르네"라고만 하고, 중간에 "이 숫자는 더해야 해"라고 알려주지 않는 것과 같습니다. 아이는 어떻게 풀어야 할지 감을 잡기 어렵죠.

2. 해결책: "열쇠를 여러 개로 바꾸는 마법" (PRPO)

이 논문은 **"표의 열 (Column) 순서를 바꿔도 결과는 똑같다"**는 사실을 이용합니다.

  • 상황: "이름, 나이, 주소" 순서든 "주소, 이름, 나이" 순서든, 그 사람의 정보는 변하지 않습니다.
  • 새로운 방법 (PRPO): AI 에게 같은 문제를 열 순서를 바꿔서 10 번, 20 번씩 반복해서 보여줍니다.
    • 비유: 요리사가 같은 재료를 가지고 "김치찌개"를 만들 때, 재료를 넣는 순서를 바꿔가며 10 번을 시도해 봅니다.
    • 효과: 만약 AI 가 재료를 잘못 넣어서 실패하면, "아, 이 순서로는 안 되네"라고 배웁니다. 하지만 정답을 맞힌 경우에는 "이 순서도 성공! 저 순서도 성공!"이라고 **여러 번의 칭찬 (보상)**을 받습니다.
    • 이렇게 하면, **한 번의 문제에서 10 배나 많은 학습 신호 (칭찬과 지적)**를 얻게 되어, AI 가 숫자의 관계를 훨씬 빠르게 깨닫게 됩니다.

3. 결과: "작은 두뇌가 거인을 이기다"

이 방법으로 훈련된 AI 는 놀라운 성과를 냈습니다.

  • 기존의 거인: 수천 억 개의 파라미터를 가진 초대형 AI(DeepSeek-R1 등) 는 표 데이터를 분석할 때 여전히 서툴렀습니다. (정확도 약 57%)
  • 이 논문의 모델: 상대적으로 작은 모델 (80 억 파라미터) 이지만, PRPO로 훈련받자 거인보다 훨씬 잘하게 되었습니다. (정확도 80% 이상, 거인 대비 53% 향상!)
  • 특이한 점: 이 모델은 학습 데이터 (예시) 를 전혀 주지 않아도 (Zero-shot) 다른 새로운 표 데이터를 보고도 잘 예측합니다. 마치 수학 원리를 완벽하게 이해한 학생이 새로운 문제를 보고도 풀 수 있는 것과 같습니다.

한 줄 요약

"표 데이터의 열 순서를 바꿔가며 반복 훈련시키는 'PRPO'라는 방법을 통해, AI 가 숫자 계산의 비법을 깨닫게 되었고, 이제 작은 AI 가 거대한 AI 보다 표 분석을 훨씬 잘하게 되었습니다."

이 기술은 의료, 금융, 추천 시스템 등 숫자가 중요한 모든 분야에서 AI 가 더 똑똑하고 투명하게 (어떻게 결론을 내렸는지 설명 가능하게) 일할 수 있는 길을 열었습니다.