Replacing Parameters with Preferences: Federated Alignment of Heterogeneous Vision-Language Models

이 논문은 데이터 공유 제약과 이종성 문제를 해결하기 위해, 각 클라이언트의 선호도 기반 보상 모델을 혼합하여 GRPO 를 통해 이종 비전 - 언어 모델을 정렬하는 새로운 연방 프레임워크 'MoR'을 제안합니다.

Shule Lu, Yujing Wang, Hainan Zhang, Xiaoshan Yang, Hongwei Zheng, Yongxin Tong, Changsheng Xu, Zhiming Zheng

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 배경: 왜 이 연구가 필요한가요?

지금까지 AI 를 가르치려면, 모든 식당 (병원, 은행, 학교 등) 이 가진 **비밀 레시피 (데이터)**를 한 큰 주방으로 가져와야 했습니다. 하지만 개인정보 보호법 때문에 이 레시피를 공유할 수 없죠.

그래서 등장한 것이 **연방 학습 (Federated Learning)**입니다. "레시피는 가져오지 말고, 요리사들이 만든 **완성된 요리 (모델 파라미터)**만 가져오자"는 방식입니다.

하지만 여기서 문제가 생깁니다.

  1. 요리사들의 실력이 천차만별입니다. (어떤 사람은 미슐랭 스타일, 어떤 사람은 초보 스타일)
  2. 요리 스타일이 다릅니다. (한 식당은 '매운맛'을 중요하게 여기고, 다른 식당은 '건강식'을 중요하게 여깁니다.)
  3. 완성된 요리를 공유하면 해킹 위험이 있습니다. (요리 과정을 역추적하면 레시피가 유출될 수 있음)

💡 해결책: "요리" 대신 "취향"을 공유하자!

이 논문은 **"완성된 요리를 공유하는 대신, 각 식당이 가진 '맛 평가 기준 (선호도)'만 공유하자"**고 제안합니다.

이를 **MoR (Mix of Rewards, 보상 혼합)**이라고 부릅니다.

🌟 비유: "전국 요리 평가단" 프로젝트

  1. 각자만의 '맛 평가단' 만들기 (로컬 보상 모델)

    • 각 식당 (클라이언트) 은 자신의 비밀 레시피를 그대로 두고, **자신만의 '맛 평가단'**을 훈련시킵니다.
    • A 식당 평가단은 "매콤하고 푸짐한 게 최고야!"라고 평가하고, B 식당 평가단은 "재료 본연의 맛과 건강이 최고야!"라고 평가합니다.
    • 이때, 실제 레시피 (데이터) 는 절대 밖으로 나가지 않습니다. 오직 "이 요리는 10 점, 저 요리는 5 점"이라는 **평가 점수 (선호도)**만 나옵니다.
  2. 현명한 '배달 기사' (라우팅 네트워크)

    • 이제 중앙 주방 (서버) 에는 각 식당에서 온 다양한 '맛 평가단'들이 모여 있습니다.
    • 문제는 "어떤 요리를 어떤 평가단이 평가해야 할까?"입니다. (예: 매운 요리를 건강식 평가단에게 주면 점수가 낮아질 수 있음)
    • 그래서 **현명한 '배달 기사 (라우터)'**를 훈련시킵니다. 이 기사는 들어온 요리를 보고, "이건 매운맛이니까 A 식당 평가단에게, 이건 건강식이니까 B 식당 평가단에게 보내자!"라고 가장 적합한 평가단을 골라줍니다.
  3. 함께 요리하기 (GRPO 최적화)

    • 중앙 주방의 메인 요리사 (메인 AI 모델) 는 이 '배달 기사'가 골라준 가장 적합한 평가단의 점수를 보고 요리를 다듬습니다.
    • 결과적으로, 매운맛을 좋아하는 식당과 건강식을 좋아하는 식당의 모든 장점을 합쳐서, 어떤 요리든 완벽하게 평가하고 발전시킬 수 있게 됩니다.

🚀 이 방법의 놀라운 장점

  1. 비밀은 안전합니다: 레시피 (원본 데이터) 는 절대 공유되지 않고, 오직 '평가 기준'만 오갑니다.
  2. 서로 다른 실력도 OK: 요리사 (모델) 의 실력이 달라도, '배달 기사'가 실력이 좋은 평가단에게만 중요한 일을 맡기므로 약한 평가단의 실수가 전체를 망가뜨리지 않습니다. (약한 요리사가 섞여도 전체 퀄리티가 떨어지지 않음)
  3. 빠르고 효율적입니다: 무거운 요리 (모델 전체) 를 주고받는 게 아니라, 가벼운 '평가 기준'만 주고받으니 통신 비용이 훨씬 적게 듭니다.

📝 요약

이 논문은 **"서로 다른 취향과 능력을 가진 AI 들이, 서로의 데이터를 훔치지 않으면서도 서로의 '취향 (선호도)'을 공유하여 함께 더 똑똑해지도록 하는 새로운 시스템"**을 제안합니다.

마치 각자 다른 맛을 가진 식당들이 모여 '맛 평가단'을 꾸리고, 현명한 배달 기사가 요리에 맞는 최고의 평가단을 불러와 함께 요리를 발전시키는 것과 같습니다. 이를 통해 의료, 금융 등 민감한 분야에서 AI 의 성능을 획기적으로 높일 수 있게 되었습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →