RL makes MLLMs see better than SFT

✨

이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문의 주인공은 두 명입니다.

지금까지의 일반적인 생각은 **"지식인 (머리) 이 너무 똑똑해서, 감식사 (눈) 는 그냥 평범해도 괜찮다"**였습니다. 하지만 이 연구는 **"아니야, 감식사 (눈) 를 더 훈련시키면 AI 전체가 훨씬 더 잘한다"**라고 주장합니다.

AI 를 가르칠 때 두 가지 방법이 있습니다.

SFT (지도 학습): "이건 개야, 이건 고양이야"라고 정답을 외우게 하는 암기식 교육입니다.
RL (강화 학습, 특히 DPO): "이 답변은 좋지만, 저 답변은 틀렸어"라고 선택과 비교를 통해 가르치는 코칭식 교육입니다.

📊 연구 결과:

**암기식 (SFT)**은 일반적인 지식 질문에는 좋지만, 세부적인 그림을 보고 답하는 문제에서는 한계가 있었습니다.
**코칭식 (RL/DPO)**은 AI 가 그림을 볼 때 **"어디에 집중해야 할지"**를 훨씬 더 정확하게 깨우치게 만들었습니다. 마치 감식사가 "개만 보지 말고, 배경의 나무나 사람의 표정까지 자세히 봐!"라고 코칭받은 것과 같습니다.

가장 놀라운 점은, RL 로 훈련을 시키면 단순히 '대답'만 잘하는 게 아니라, '보는 능력' 자체가 변한다는 것입니다.

SFT 로 훈련된 눈: 그림 전체를 흐릿하게 보거나, 중요한 부분과 중요하지 않은 부분을 구분하지 못합니다.
RL 로 훈련된 눈: 질문과 관련된 **정확한 부분 (예: "여기서 아이가 들고 있는 물건을 봐")**에 초점을 맞추는 초점 (Localization) 능력이 탁월해집니다.

비유: SFT 는 "이건 사람이야"라고 대충 말하지만, RL 은 "저 사람이 입고 있는 빨간색 셔츠의 단추가 하나 빠졌어"라고 정확히 지적할 수 있게 됩니다.

연구진은 이 발견을 바탕으로 **'PIVOT'**이라는 새로운 훈련 방법을 제안했습니다.

기존 방식: 거대한 컴퓨터 (GPU) 수천 대를 동원해 수년 동안 그림과 글을 함께 학습시킵니다. (비싸고 느림)
PIVOT 방식: 이미 만들어진 '눈 (Vision Encoder)'을 가져와서, '머리 (LLM)'와 함께 **RL(DPO)**로 짧게 훈련시킵니다.

🌟 놀라운 성과:

한 줄 요약:

"AI 에게 정답을 외우게 하는 것 (SFT) 보다, 좋은 답과 나쁜 답을 비교하며 가르치는 것 (RL) 이 AI 의 '눈'을 더 예리하게 만들어, 훨씬 더 똑똑하게 만든다!"

유사한 논문