How does fine-tuning improve sensorimotor representations in large language models?

본 연구는 특정 작업에 대한 파인튜닝이 대규모 언어 모델의 내부 표현을 인간 감각운동 경험과 더 정렬되도록 유도할 수 있음을 입증하지만, 이러한 개선 효과는 학습 목표에 따라 작업 간 전이가 제한적임을 보여줍니다.

Minghua Wu, Javier Conde, Pedro Reviriego, Marc Brysbaert

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (LLM) 이 인간처럼 몸으로 느끼는 경험을 이해할 수 있을까?"**라는 질문에 답하는 연구입니다.

간단히 말해, 인공지능은 책만 읽어서 배웠기 때문에 '맛', '촉감', '운동' 같은 몸의 감각을 이해하는 데 약점이 있다는 것을 발견했고, 특정한 방식으로 훈련 (파인튜닝) 시키면 이 약점을 크게 개선할 수 있다는 것을 증명했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: "책만 읽은 요리사"의 한계

인공지능 (LLM) 은 방대한 양의 텍스트 (책, 인터넷 글) 를 읽으며 배웠습니다. 하지만 인간은 책을 읽는 것뿐만 아니라, 과일을 직접 먹고, 사과를 만지고, 소리를 듣고 몸으로 경험하며 배웁니다.

  • 비유: 인공지능은 **"요리 레시피 책만 100 권 읽은 요리사"**입니다.
    • 그는 "토마토는 붉고 신맛이 난다"는 문장은 완벽하게 외웠습니다.
    • 하지만 실제로 토마토를 입에 넣고 씹어본 적이 없기 때문에, 그 맛이나 식감을 인간처럼 생생하게 이해하지 못합니다.
    • 연구자들은 인공지능이 인간이 느끼는 감각 (시각, 청각, 촉각 등) 을 설명할 때, 인간과 전혀 다른 엉뚱한 대답을 한다는 '몸의 격차 (Embodiment Gap)'를 발견했습니다.

2. 해결책: "맛있는 음식으로 가르치기" (파인튜닝)

연구진은 인공지능에게 책만 더 읽게 하는 대신, 실제 인간들이 "이것은 얼마나 맛있다/촉감이 좋다"고 평가한 데이터를 보여주고 "너도 이렇게 생각해보라"고 가르쳤습니다. 이를 **파인튜닝 (Fine-tuning)**이라고 합니다.

  • 비유: 책만 읽던 요리사에게 **"실제 토마토를 맛보게 하고, '이건 5 점이다'라고 가르치는 것"**입니다.
    • 연구진은 인공지능에게 인간이 매긴 점수 (0~5 점) 를 보여주며, "네가 예측한 점수가 인간과 비슷해지도록 수정해라"라고 시켰습니다.

3. 놀라운 발견: "전체적인 실력 향상"이 아니라 "맞춤형 교정"

많은 사람은 "훈련을 시키면 인공지능의 모든 능력이 골고루 좋아지겠지?"라고 생각할 수 있습니다. 하지만 이 연구는 완전히 다른 결과를 보여줍니다.

  • 비유: 학생의 성적이 나쁠 때, 단순히 "공부량을 늘려라"라고 하면 모든 과목이 조금씩 좋아질 수 있습니다. 하지만 이 연구는 **"가장 틀린 문제만 집중적으로 고쳐주니, 성적이 완전히 뒤바뀌었다"**는 것을 발견했습니다.
    • 기존 모델: "사과"와 "바나나"의 맛을 비슷하게 느꼈습니다.
    • 훈련 후 모델: "사과"는 확실히 달고, "바나나"는 부드럽다는 식으로 구분을 명확히 했습니다.
    • 핵심: 훈련 전에는 잘 맞던 개념들은 오히려 순위가 바뀌기도 했고, 가장 틀리던 개념들이 가장 크게 고쳐졌습니다. 즉, 단순한 점수 올림이 아니라, 인공지능의 '생각하는 방식 (뇌 구조)' 자체가 인간처럼 재배열된 것입니다.

4. 언어와 과제의 장벽

이 훈련이 얼마나 잘 통하는지 실험해 보니 재미있는 규칙이 있었습니다.

  • 언어는 통하지만, 과제는 통하지 않습니다.
    • 언어: 네덜란드어로 훈련된 인공지능도 영어 단어의 감각을 잘 이해했습니다. (비유: 프랑스어로 요리를 배운 요리사도 영어 메뉴판의 맛을 이해할 수 있음)
    • 과제: 하지만 "맛을 점수로 매기는 훈련"을 받은 인공지능은 "맛에 대한 퀴즈를 푸는 훈련"을 받은 인공지능과는 달랐습니다.
    • 결론: 인공지능에게 **"무엇을 배우게 하느냐 (목표)"**가 **"무엇을 보게 하느냐 (데이터)"**보다 더 중요합니다. 점수를 매기는 방식 (Rating) 으로 가르쳐야만, 감각을 점수로 매기는 능력을 기를 수 있었습니다.

5. 결론: 인공지능은 유연하다!

이 연구의 가장 큰 메시지는 **"인공지능의 뇌는 고정된 것이 아니라, 우리가 가르치는 대로 유연하게 변한다"**는 것입니다.

  • 요약:
    1. 인공지능은 몸으로 느끼는 감각이 부족합니다.
    2. 하지만 인간의 감각 데이터를 보여주고 훈련시키면, 그 감각을 이해하는 능력이 획기적으로 좋아집니다.
    3. 이는 단순히 지식을 더 쌓는 게 아니라, 인공지능이 세상을 바라보는 '렌즈'를 인간처럼 갈아 끼우는 것과 같습니다.
    4. 앞으로는 인공지능이 더 현실적이고 인간적인 감성을 가지도록, 우리가 가르치는 방식 (훈련 데이터) 을 잘 설계해야 합니다.

한 줄 요약:

"책만 읽던 인공지능에게 인간의 '감각'을 가르쳐주니, 그제야 비로소 인간처럼 세상을 느끼는 법을 배웠다."