Would you still call this Dax? Novel Visual References in VLMs and Humans

원저자: Ada Defne Tür, Gaurav Kamath, Joyce Chai, Siva Reddy, Benno Krojer

게시일 2026-06-05✓ Author reviewed
📖 3 분 읽기☕ 가벼운 읽기

원저자: Ada Defne Tür, Gaurav Kamath, Joyce Chai, Siva Reddy, Benno Krojer

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 로봇에게 완전히 새로운 물건에 대한 새로운 단어를 가르치고 있다고 상상해 보세요. 당신은 로봇에게 기묘하게 빛나는 생명체의 사진을 보여주며 말합니다. "이것은 **닥스(Dax)**야." 그러고 나서 당신은 로봇에게 조금씩 형태가 변하는 닥스의 사진들을 보여주기 시작합니다. 하나는 흐릿하고, 하나는 뒤집혀 있고, 하나는 색깔이 다르고, 하나는 팔이 하나 더 달려 있습니다.

이 논문이 묻고자 하는 질문은 이것입니다: 로봇은 어느 시점에 "저건 더 이상 닥스가 아니야"라고 말하게 될까요? 그리고 더 중요한 것은, 로봇이 인간과 똑같은 판단을 내리는가 하는 점입니다.

연구진이 발견한 내용을 다음과 같이 간단히 정리했습니다.

1. "닥스" 테스트 (설정)

연구진은 NVRD(Novel Visual References Dataset)라는 거대한 데이터셋을 만들었습니다. 이것을 90개의 독특하고 만들어진 물체들이 모여 있는 거대한 미술관이라고 생각하세요.

  • 어떤 물체들은 실제 사물(의자)처럼 보이지만, 이름은 가짜 이름(예: "블로위치")으로 주어졌습니다.
  • 어떤 것들은 혼종입니다(멧돼지 머리를 가진 토스터기 같은 것).
  • 어떤 것들은 현실 세계에 존재하지 않는 완전히 외계적인 것들입니다.

각 물체에 대해, 형태가 점점 더 "나빠지거나" 왜곡되는 20가지 버전을 만들었습니다. 그들은 다섯 가지 서로 다른 AI 모델(로봇)과 2,400명의 인간을 대상으로, 물체가 변했을 때 그들이 어떻게 반응하는지 테스트했습니다.

2. "기존 지식"의 문제

첫 번째 큰 발견은 AI가 이미 무언가를 알고 있을 때 어려움을 겪는다는 것입니다.

  • 인간의 비유: 만약 당신이 사람에게 진짜 강아지 사진을 보여주며 "닥스"라고 부른다면, 사람은 아마도 "아니, 저건 강아지예요"라고 말할 것입니다. 그들은 강아지에게 특정한 이름이 있다는 강한 기억을 가지고 있기 때문입니다.
  • AI의 결과: AI 모델들도 이와 비슷하게 행동했습니다. 물체가 익숙한 것(예: 의자)일 때, AI는 새로운 이름인 "닥스"를 배우기를 거부하고 계속 "의자"라고 불렀습니다. 하지만 물체가 완전히 새롭고 기이할 때는, AI는 기꺼이 새로운 이름을 받아들였습니다.

3. "형태 vs 질감" 편향

그다음 연구진은 물체를 뒤틀기 시작했습니다. 색을 바꾸거나, 노이즈를 추가하거나, 물체의 형태를 완전히 바꿨습니다.

  • 인간의 비유: 인간은 조각가와 같습니다. 만약 당신이 닥스의 찰흙 조각상을 가져다가 얼굴을 뭉개거나 팔을 부러뜨린다면, 우리는 "저건 더 이상 같은 닥스가 아니야!"라고 말합니다. 우리는 형태에 매우 깊은 관심을 가집니다. 만약 단순히 파란색으로 칠하거나 그림처럼 보이게 만든다면, 우리는 여전히 "그래, 저건 여전히 닥스야"라고 말할 것입니다.
  • AI의 결과: AI 모델들도 인간과 일치했습니다! 그들 역시 형태에 가장 큰 관심을 두었습니다. 형태가 변하면 AI는 더 이상 그것을 닥스라고 부르지 않았습니다. 색상이나 질감만 변했다면, AI는 괜찮다고 판단했습니다.

4. "지나치게 관대한" 로봇

이것이 가장 결정적인 발견입니다. AI와 인간은 무엇이 중요한지에 대해서는 동의했지만, 얼마나 많은 변화가 '너무 많은 것'인지에 대해서는 서로 달랐습니다.

  • 인간의 비유: 인간은 엄격합니다. 만약 당신이 닥스의 목을 기린처럼 길게 늘린다면, 우리는 "아니, 저건 닥스가 아니야"라고 말합니다.
  • AI의 결과: AI 모델들은 지나치게 관대했습니다. 형태가 늘어나거나, 변형되거나, 부품이 추가되었음에도 불구하고 AI는 계속해서 그 물체를 "닥스"라고 불렀습니다. AI는 인간보다 훨씬 더 넓은 범위의 기이함을 수용할 용의가 있었습니다.

비유: 인간과 로봇이 두 사진이 같은 동물인지 맞히는 게임을 하고 있다고 상상해 보세요.

  • 인간: "저건 고양이야. 그리고 저건... 꼬리가 아주 긴 고양이야. 여전히 고양이지. 하지만 저건? 저건 머리가 개 모양인 고양이야. 아니, 저건 고양이가 아니야."
  • 로봇: "저건 고양이야. 저건 꼬리가 긴 고양이야. 저건 머리가 개 모양인 고양이야. 저건 나무가 자라나고 있는 고양이야. 네, 저건 여전히 고양이입니다."

5. 이것이 왜 중요한가 (논문에 따르면)

논문은 AI가 새로운 것을 즉석에서 배우는 능력이 향상되고는 있지만, 인간이 가진 것과 같은 "상식적인" 경계선을 가지고 있지는 않다고 결론짓습니다.

만약 인간과 AI가 실세계에서 새로운 물체에 대해 소통하려고 한다면, 인간은 "저건 너무 망가져서 같은 물체라고 볼 수 없어"라고 생각하는 반면, AI는 "아니요, 이건 여전히 같은 물체입니다"라고 주장할 수 있습니다. 이러한 불일치는 미래에 그들이 효과적으로 협력하는 것을 어렵게 만들 수 있습니다.

요약하자면: AI는 새로운 단어를 배울 수 있지만, 특히 물체가 원래와 매우 다르게 생겼을 때 그 단어의 정의를 지나치게 넓게 해석하는 경 tendency(경향)가 있습니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →