MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 문제: "이미지와 글의 관계를 찾아라!"

상상해 보세요. 뉴스 기사에 **"열기 (Heat) 와 셀틱스 (Celtics) 가 4 경기 후 동률을 이뤘다"**라는 글이 있고, 그 옆에 농구 선수가 슈팅하는 사진이 있다고 칩시다.
이때 AI 는 **"사진 속 선수 (셀틱스 팀원) 와 글 속 'Heat'라는 단어는 어떤 관계일까?"**를 맞춰야 합니다. 정답은 **"서로 경쟁하는 관계 (opposed to)"**입니다.

기존의 AI 들은 이 문제를 풀 때 두 가지 큰 약점이 있었습니다.

단순 암기형: 미리 정해진 답지 (A, B, C) 중에서 찍는 방식이라, 새로운 관계가 나오면 다시 공부를 해야 했습니다.
생각 없이 바로 답: "왜 저렇게 답했지?"라는 과정을 설명하지 못해, 복잡한 상황에서는 헷갈려서 틀렸습니다.

🚀 해결책: MORE-R1 (생각하는 AI)

이 연구팀은 **"생각하는 과정 (추론)"**을 거치는 새로운 AI, MORE-R1을 만들었습니다. 이 모델은 **대규모 시각 - 언어 모델 (LVLM)**을 기반으로 하는데, 마치 초능력을 가진 탐정처럼 작동합니다.

이 탐정은 두 단계의 훈련 (교육) 을 받습니다.

1 단계: 초보 탐정 교육 (Cold-Start Training)

상황: 처음에는 AI 가 어떻게 생각해야 할지 모릅니다.
방법: 연구팀은 **GPT-4o(초지능 AI)**라는 '스승'을 고용했습니다. 이 스승이 25% 정도의 데이터만 가지고 **"단계별로 어떻게 추론해야 하는지"**를 가르쳐 주는 교재를 만들었습니다.
- 예시: "1. 이미지 속 선수가 누구인지 파악한다. 2. 글과 이미지가 연결되는지 본다. 3. 두 팀의 관계를 유추한다..."
결과: AI 는 이제 **"답을 바로 말하지 않고, 단계별로 생각해보는 습관"**을 배웠습니다. (이 단계만 거친 모델은 이미 기존 모델보다 훨씬 잘합니다.)

2 단계: 고난도 훈련과 강화 학습 (Reinforcement Learning)

상황: 이제 기본은 알지만, 아주 어려운 문제 (복잡한 상황) 를 풀면 여전히 실수가 나옵니다.
방법: **GRPO(그룹 상대 정책 최적화)**라는 훈련 방식을 썼습니다.
- AI 가 한 번에 여러 개의 답 (추론 과정) 을 내보내면, 그중에서 가장 논리적인 답을 골라 상점을 줍니다.
- 핵심 전략 (점진적 샘플 믹싱): 처음에는 쉬운 문제와 어려운 문제를 섞어서 풀게 합니다. 시간이 지날수록 어려운 문제의 비율을 점점 늘려갑니다.
- 비유: 운동 선수가 처음에는 가벼운 무게로 근력을 키우고, 점점 무거운 무게로 훈련하는 것과 같습니다. 쉬운 문제만 풀면 실력이 늘지 않고, 어려운 문제만 처음부터 풀면 주저앉아버리니까요.

🏆 결과: 왜 이 모델이 특별한가?

정답률 최고 (SOTA): 기존에 가장 잘하던 모델들보다 훨씬 높은 정확도를 보여줬습니다.
생각 과정이 투명함: AI 가 "왜 이 답을 냈는지" 단계별로 설명해주기 때문에, 인간이 그 과정을 따라가며 신뢰할 수 있습니다.
유연함: 미리 정해진 답지 (클래식) 에 갇히지 않고, 새로운 상황에서도 논리적으로 추론할 수 있습니다.

💡 한 줄 요약

MORE-R1은 "스승에게 추론 법을 배우고 (1 단계), 어려운 문제를 풀며 실력을 다져가는 (2 단계)" 과정을 통해, 이미지와 글 사이의 복잡한 관계를 스마트하게 찾아내는 초능력을 가진 AI입니다.

이 기술은 앞으로 뉴스 검색, 지식 그래프 구축 등 다양한 분야에서 우리가 정보를 더 정확하게 이해하는 데 큰 도움을 줄 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

과제: 멀티모달 객체 - 개체 관계 추출 (Multimodal Object-Entity Relation Extraction, MORE) 은 이미지 내의 특정 객체 (Bounding Box 로 지정) 와 텍스트 내의 특정 개체 간의 관계를 추출하는 작업입니다.
난이도: 단순한 분류를 넘어, 이미지와 텍스트 간의 정교한 교차 모달 (Cross-modal) 추론이 필요합니다. 예를 들어, 이미지의 농구 선수가 텍스트의 특정 팀과 어떤 관계 (동료, 적대, 소속 등) 를 가지는지 파악해야 합니다.
기존 방법의 한계:
- 분류 기반 (Classification-based): 사전 정의된 레이블 집합에 국한되어 확장성 (Scalability) 이 떨어지며, 새로운 관계 유형이 추가될 때마다 모델을 재학습해야 합니다. 또한 복잡한 시나리오에서 유사한 관계 (예: '동료' vs '부부') 를 구분하는 능력이 부족합니다.
- 생성 기반 (비추론, Generation-based without reasoning): LLM/LVLM 에 직접 레이블을 출력하도록 지시하는 방식은 추론 과정의 투명성이 부족하고, 복잡한 관계 추론을 수행하는 데 한계가 있습니다.

2. 제안 방법: MORE-R1 (Methodology)

MORE-R1 은 대규모 시각 - 언어 모델 (LVLM) 을 기반으로 **명시적인 단계별 추론 (Stepwise Reasoning)**과 **강화 학습 (Reinforcement Learning, RL)**을 결합한 2 단계 훈련 프레임워크를 제안합니다.

2.1 전체 아키텍처

백본 모델: Qwen2.5-VL (7B) 을 기반으로 합니다.
입력: 원본 이미지, 객체가 잘려진 이미지 (Crop), 텍스트 설명, 대상 개체.
출력: 6 단계의 사고 과정 (Chain-of-Thought) 과 최종 관계 레이블.

2.2 1 단계: 콜드스타트 훈련 (Cold-Start Training via SFT)

목적: 모델에게 MORE 작업에 특화된 기본 추론 패턴을 학습시킵니다.
데이터 구축: 수동 주석은 비용이 많이 들므로, GPT-4o 를 '전문가 모델 (Expert Model)'로 활용하여 고품질의 단계별 추론 데이터를 자동 생성합니다.
- 추론 가이드: 6 단계로 세분화된 지시사항을 제공합니다.
  1. 이미지 및 객체 분석
  2. 교차 모달 관련성 평가
  3. 교차 모달 정렬 (객체와 개체 매핑)
  4. 개체 유형 식별 (Person, Org, Loc, Misc)
  5. 후보 관계 유형 필터링 (개체 유형 기반)
  6. 최종 관계 유형 결정
학습: 생성된 데이터로 LVLM 을 지도 학습 (SFT) 하여 기본 추론 능력을 습득시킵니다.

2.3 2 단계: 강화 학습 (Reinforcement Learning Stage)

알고리즘: **GRPO (Group Relative Policy Optimization)**를 사용합니다. 가치 모델 (Value Model) 이 불필요하여 계산 효율성이 높고, 그룹 내 상대적 이득을 기반으로 정책을 업데이트합니다.
보상 함수 (Reward Function):
1. 형식 보상: <thought> 태그와 <answer> 태그를 포함한 정해진 포맷 준수.
2. 길이 보상: 충분한 사고 과정 (CoT) 을 유도하기 위해 긴 응답에 보상.
3. 정답 보상: 최종 관계 레이블이 정답과 일치할 때 보상.
핵심 전략: 점진적 샘플 혼합 전략 (Progressive Sample-Mixing Strategy)
- 문제: 훈련 데이터의 대부분은 모델이 이미 쉽게 풀 수 있는 '쉬운 샘플'이며, RL 훈련 시 이러한 샘플이 많으면 모델이 복잡한 사례를 학습하지 못합니다. 반대로 '어려운 샘플'만 학습하면 초기 학습이 불안정해집니다.
- 해결: 훈련 에포크가 진행됨에 따라 미니배치 내 쉬운 샘플과 어려운 샘플의 비율을 동적으로 조절합니다.
  - 초기: 쉬운 샘플과 어려운 샘플을 1:1 로 혼합.
  - 후기: 어려운 샘플의 비율을 점진적으로 증가시켜 모델이 점차 더 복잡한 추론에 적응하도록 유도합니다.

3. 주요 기여 (Key Contributions)

MORE-R1 모델 제안: LVLM 을 백본으로 하여 명시적 추론을 수행하는 생성 기반 방법론을 처음으로 MORE 작업에 적용했습니다.
효율적인 데이터 구축 전략: GPT-4o 를 활용한 자동화된 고품질 단계별 추론 데이터 생성 및 SFT 파이프라인을 설계했습니다.
점진적 샘플 혼합 전략: RL 훈련 중 난이도 조절을 통해 모델의 학습 안정성을 높이고 복잡한 사례에 대한 추론 능력을 극대화했습니다.
SOTA 성능 달성: MORE 벤치마크에서 기존 분류 기반 및 생성 기반 방법론을 모두 압도하는 성능을 기록했습니다.

4. 실험 결과 (Results)

데이터셋: MORE 벤치마크 (20,264 개 샘플, 21 가지 관계 유형).
성능 비교:
- 기존 SOTA 분류 기반 모델 (REMOTE) 대비 정확도 (Acc) 1.5%p, F1 점수 6.1%p 향상.
- 생성 기반 (비추론) 베이스라인 (Qwen2.5-VL-SFT) 대비 F1 점수 13.8%p, 정밀도 (Precision) 19.6%p의 압도적인 개선.
- 제로샷 (Zero-shot) 및 단순 SFT 모델은 복잡한 관계 추론에서 실패했으나, MORE-R1 은 높은 성능을 보였습니다.
Ablation Study:
- 1 단계 (SFT) 만으로도 SOTA 모델과 근접한 성능을 보였으나, 2 단계 (RL) 를 거치며 성능이 크게 향상되었습니다.
- 점진적 샘플 혼합 전략 ( $\alpha=0.5$ ) 을 사용한 것이 '모든 샘플 혼합'이나 '어려운 샘플만 학습'하는 방식보다 모든 지표에서 우월한 성능을 보였습니다.

5. 의의 및 결론 (Significance)

해석 가능성 향상: 모델이 최종 답을 도출하기까지의 사고 과정 (Step-by-step reasoning) 을 명시적으로 보여줌으로써, 블랙박스 모델의 결정 과정을 투명하게 만들었습니다.
복잡한 시나리오 대응: 단순한 패턴 매칭을 넘어, 이미지와 텍스트 간의 심층적인 의미론적 연결과 추론을 통해 복잡한 멀티모달 관계 추출 문제를 해결할 수 있음을 입증했습니다.
확장성: 분류 레이블에 의존하지 않고 생성 기반 접근법을 사용함으로써, 새로운 관계 유형에 대한 확장성이 우수합니다.

이 논문은 멀티모달 정보 추출 분야에서 강화 학습과 단계별 추론을 결합한 LVLM의 잠재력을 보여주었으며, 향후 복잡한 멀티모달 태스크 해결을 위한 새로운 패러다임을 제시했습니다.