Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

이 논문은 여러 LLM 을 기능적으로 병합하기 위해 유클리드 공간의 단순 평균 대신 피셔 - 라오 다양체 상의 가중 카체르 평균을 계산하는 새로운 접근법을 제안하여, 모델 간 이질성이 커질 때 발생하는 표현 붕괴 문제를 해결하고 기존 방법들보다 우수한 성능을 입증합니다.

Jiayu Wang, Zuojun Ye, Wenpeng Yin

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 1. 문제: "요리 레시피를 섞으면 맛이 망가질까?"

지금까지 AI 모델을 합치는 방식은 마치 서로 다른 요리사의 레시피를 단순히 반반씩 섞는 것과 비슷했습니다.

  • 기존 방법 (유클리드 평균): "A 요리사는 소금을 10g, B 요리사는 20g 넣었으니, 합치면 15g 넣자!"라고 단순히 숫자를 평균냅니다.
  • 문제점: 하지만 AI 는 숫자만 섞는 게 아니라, 그 숫자들이 만들어내는 **'맛 (기능)'**이 중요합니다. 서로 다른 전문가 (예: 수학 전문가, 문학 전문가, 코딩 전문가) 들을 무작정 섞으면, AI 가 혼란을 느껴 **"무슨 말인지 모르겠다"**거나 "기억력이 떨어지는" 현상이 발생합니다. 이를 논문에서는 **'표현의 붕괴 (Collapse)'**라고 부릅니다.

🧭 2. 해결책: "지구의 곡선을 따라 걷자"

이 논문은 **"단순히 직선으로 섞지 말고, 지구의 곡면을 따라 걷는 방식"**을 제안합니다.

  • 비유: 지구 위의 여행
    • 기존 방법 (직선): 서울과 뉴욕을 직선으로 잇는다고 가정해 보세요. 지구는 둥글기 때문에 직선으로 가려면 지하를 뚫고 가야 하거나, 실제로는 엉뚱한 곳으로 가게 됩니다. (AI 가 망가짐)
    • 새로운 방법 (기하학/피셔 - 라오): 지구는 둥글기 때문에, 두 도시 사이를 이동할 때는 **지구의 곡면을 따라 가장 짧은 길 (대원)**을 따라가야 합니다.
    • 이 논문은 AI 모델들을 '지구의 곡면' 위에 있다고 보고, 여러 전문가들의 위치를 가장 자연스러운 곡선 경로로 이어 합치는 방법을 개발했습니다.

🎯 3. 핵심 아이디어: "가장 맛있는 요리를 찾아서"

논문은 이 새로운 방법을 **'카르셔 평균 (Karcher Mean)'**이라는 수학 용어로 설명합니다. 쉽게 말해 **"여러 전문가의 의견을 종합했을 때, 가장 균형 잡히고 맛있는 요리를 만드는 지점"**을 찾는 것입니다.

  • 기존 방식: 단순히 숫자를 더하고 나누는 것.
  • 이 방식: "이 전문가의 지식과 저 전문가의 지식이 만났을 때, AI 가 가장 자연스럽게 이해할 수 있는 중간 지점"을 찾아냅니다.
  • 효과: 이렇게 하면 AI 가 혼란스러워하지 않고, 각 전문가의 능력을 잃지 않은 채 하나로 통합됩니다.

📊 4. 실험 결과: "혼자서는 못했던 일도 함께는 잘한다"

연구진은 이 방법을 테스트해 보았습니다.

  • 상황: 2 개의 모델을 합치는 것은 기존 방법도 잘했지만, 5 개, 10 개 이상의 다양한 전문가 모델을 합칠 때 기존 방법들은 완전히 망가졌습니다 (점수가 뚝 떨어짐).
  • 결과: 하지만 이 새로운 방법 (KARCHER) 은 모델이 10 개가 되어도 안정적으로 좋은 점수를 유지했습니다. 마치 10 명의 요리사가 한 팀이 되어도 서로의 재료를 잘 섞어 더 맛있는 요리를 만드는 것과 같습니다.

💡 5. 요약: 왜 이 논문이 중요할까요?

  1. 단순한 합계가 아님: AI 를 합칠 때 단순히 숫자를 섞지 않고, AI 가 '무엇을 어떻게 생각할지' (기능) 를 고려합니다.
  2. 대량 병합 가능: 2 개만 합치는 게 아니라, 수십 개의 다양한 AI 를 합쳐도 성능이 떨어지지 않습니다.
  3. 붕괴 방지: AI 가 합쳐질 때 기억력이나 사고력이 사라지는 현상 (붕괴) 을 막아줍니다.

한 줄 요약:

"서로 다른 AI 전문가들을 단순히 섞는 게 아니라, 그들의 지식이 자연스럽게 공존할 수 있는 **'최적의 중간 지점'**을 찾아 하나로 합치는, 더 똑똑하고 안전한 AI 통합 방법입니다."