Feature Resemblance: On the Theoretical Understanding of Analogical Reasoning in Transformers

이 논문은 트랜스포머 모델이 유사한 속성을 가진 엔티티를 유사한 표현으로 인코딩하는 Feature Resemblance 메커니즘을 통해 유추 추론이 어떻게 발현되는지 이론적으로 증명하고, 학습 커리큘럼과 데이터 구조가 추론 능력에 미치는 영향을 15 억 파라미터 모델 실험을 통해 검증했습니다.

Ruichen Xu, Wenjing Yan, Ying-Jun Angela Zhang

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 언어 모델 (LLM) 이 어떻게 '유추 (비유)'를 통해 새로운 것을 배우는가?"**에 대한 비밀을 해부한 연구입니다.

마치 거대한 도서관의 사서가 책들을 어떻게 정리하고 연결하는지 설명하는 것과 같습니다. 이 논문은 사서가 단순히 책을 외우는 것이 아니라, **비슷한 책들을 같은 선반에 모아두는 '지적 습관'**을 통해 새로운 질문에도 정답을 찾아낸다는 사실을 증명했습니다.

핵심 내용을 세 가지 재미있는 비유로 설명해 드리겠습니다.


1. 핵심 원리: "비슷한 친구는 같은 반에 앉히세요" (Feature Resemblance)

모델이 새로운 것을 배울 때, 가장 중요한 것은 **'비슷한 것끼리 묶어주는 것'**입니다.

  • 상황: "토끼"와 "고양이"는 모두 귀가 길고 털이 있습니다.
  • 모델의 학습: 모델은 이 두 동물이 "귀가 길다"는 공통점을 발견하면, 내부적으로 두 동물을 매우 비슷한 위치 (비슷한 좌표) 에 배치합니다.
  • 유추의 기적: 이제 "토끼는 초식동물이다"라는 사실을 배웠다면, 모델은 "아, 토끼와 고양이는 이미 같은 반 (비슷한 위치) 에 앉혀놨으니, 고양이도 초식동물일 확률이 높겠구나!"라고 추측합니다.
  • 결론: 모델은 사실을 외우는 게 아니라, 비슷한 특징을 가진 것들을 '가깝게' 배치함으로써 새로운 사실을 유추해냅니다.

2. 학습 순서의 비밀: "먼저 친구 관계를, 그다음 특징을" (Curriculum Effect)

무작정 모든 정보를 섞어서 가르치면 안 됩니다. 순서가 생명입니다.

  • 성공적인 교육 (비유: 친구 만들기):

    1. 먼저 "토끼와 고양이는 귀가 길다"라는 **공통점 (친구 관계)**을 먼저 가르칩니다. (두 동물을 같은 반에 앉힘)
    2. 그다음에 "토끼는 초식동물이다"라는 새로운 정보를 줍니다.
    3. 결과: 모델은 "아, 토끼가 초식동물이니까, 같은 반인 고양이도 초식동물이겠네!"라고 바로 유추합니다.
  • 실패한 교육 (비유: 특징 먼저 외우기):

    1. 먼저 "토끼는 초식동물이다", "고양이는 잡식동물이다"라는 개별 정보를 먼저 가르칩니다. (두 동물을 서로 다른 반에 따로 앉힘)
    2. 그다음에 "토끼와 고양이는 귀가 길다"는 공통점을 가르칩니다.
    3. 결과: 이미 두 동물이 완전히 다른 반에 자리 잡은 상태라, 모델은 "토끼가 초식동물이라고 해서 고양이가 초식동물이 될 리가 없잖아?"라고 생각하며 유추에 실패합니다.

교훈: 모델에게 새로운 사실을 가르치기 전에, **무엇이 비슷한지 (관계)**를 먼저 가르쳐야 합니다.

3. 두 단계 추론의 열쇠: "중계역 (Identity Bridge)"

A 에서 C 로 가는 길 (A→B→C) 을 모델이 스스로 찾아내려면, B 라는 중계역이 명확하게 표시되어 있어야 합니다.

  • 상황:
    • A(사과) 는 B(과일) 입니다.
    • B(과일) 는 C(건강에 좋음) 입니다.
    • 결론: A(사과) 는 C(건강에 좋음) 입니다.
  • 문제: 모델은 A→B 와 B→C 를 따로 배웠을 뿐, B(과일) 가 자기 자신 (B) 과 같다는 사실을 모를 때가 많습니다.
  • 해결책: 학습 데이터에 **"과일은 과일이다"**라는 아주 뻔한 문장 (B→B) 을 명시적으로 넣어주어야 합니다.
  • 비유: 마치 기차를 타고 갈 때, **환승역 (B)**에서 "이 역은 바로 이 역입니다"라고 확실히 알려주지 않으면, 승객 (모델) 은 다음 역 (C) 으로 갈 수 없습니다. 이 '중계역'이 있어야만 두 단계를 연결할 수 있습니다.

요약: 이 연구가 우리에게 주는 메시지

  1. 모델은 외우는 게 아니라 '정리'합니다: 모델은 방대한 데이터를 통째로 기억하는 것이 아니라, **비슷한 것끼리 묶어주는 '지적 정리'**를 통해 지능을 발휘합니다.
  2. 교육 순서가 중요합니다: 무작정 정보를 주입하는 것보다, 먼저 관계 (비슷함) 를 이해시킨 뒤 세부 사항을 가르치는 것이 훨씬 효과적입니다.
  3. 연결고리가 필요합니다: 복잡한 추론 (A→B→C) 을 하려면, 중간 연결점 (B) 이 명확하게 드러나는 데이터가 반드시 필요합니다.

이 연구는 우리가 AI 를 더 똑똑하게 만들기 위해, 어떻게 데이터를 준비하고 순서를 배열해야 하는지에 대한 과학적인 지도를 제시했습니다. 마치 훌륭한 선생님이 학생에게 단순히 정답을 알려주는 것이 아니라, 생각의 연결고리를 만들어주는 방법을 알려주는 것과 같습니다.