Intrinsic Concept Extraction Based on Compositional Interpretability

이 논문은 단일 이미지에서 재구성 가능한 구성 가능한 내재적 개념을 추출하기 위해 쌍곡선 공간의 계층적 모델링과 개념별 최적화를 활용한 'HyperExpress'라는 새로운 방법론을 제안합니다.

Hanyu Shi, Hong Tao, Guoheng Huang, Jianbin Jiang, Xuhang Chen, Chi-Man Pun, Shanhu Wang, Pan Pan

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"한 장의 그림을 보고, 그 안에 숨겨진 '레고 블록' 같은 요소들을 찾아내어 다시 조립할 수 있게 하는 기술"**을 소개합니다.

기존의 인공지능은 그림을 볼 때 "이건 개구리야"라고 전체를 한 번에 인식하거나, "개구리"와 "초록색"을 따로 떼어내기는 했지만, 이 두 가지를 다시 합쳐서 "초록색 개구리"를 자연스럽게 만들어내거나, "개구리"만 떼어내서 다른 배경에 붙이는 것은 잘 못했습니다. 마치 레고로 만든 성을 보는데, "성"이라는 이름만 붙이고 블록들을 어떻게 분리하고 다시 조립할지 모르는 상태였죠.

이 논문은 이를 해결하기 위해 **하이퍼엑스프레스 (HyperExpress)**라는 새로운 방법을 제안합니다.

🎨 핵심 비유: "레고 블록의 마법 상자"

이 기술의 핵심은 그림을 레고 블록으로 생각하게 만드는 것입니다.

  1. 문제점 (기존 기술):

    • 기존 기술은 그림을 볼 때 "개구리"라는 이름표만 붙여주거나, "초록색"이라는 색만 떼어냈습니다. 하지만 이 두 가지를 다시 합치면 원래 그림과 달라지거나, "개구리"를 다른 색으로 바꾸려 해도 엉뚱한 결과가 나옵니다. 마치 레고 블록을 분리할 때 접착제가 너무 많이 붙어서 떼어내지 못하거나, 떼어낸 블록을 다시 조립하면 모양이 뭉개지는 것과 같습니다.
  2. 해결책 (하이퍼엑스프레스):

    • 이 연구는 그림을 완벽하게 분리 가능한 레고 블록으로 봅니다.
    • 주체 (Object): "개구리"라는 블록.
    • 속성 (Attribute): "초록색", "반짝이는 피부"라는 블록.
    • 이 연구의 핵심은 이 블록들이 **서로 어떻게 연결되는지 (관계)**를 정확히 이해하고, 다시 조립했을 때 원래 그림이 되게 (조립성) 만드는 것입니다.

🧠 어떻게 작동할까요? (두 가지 마법)

이 기술은 두 가지 특별한 마법 (수학적 공간) 을 사용합니다.

1. 마법 공간 1: "피라미드 같은 우주" (쌍곡선 공간, Hyperbolic Space)

  • 비유: 우리가 사는 공간은 평평한 평면 (유클리드 공간) 이지만, 이 연구는 피라미드나 나무처럼 계층이 있는 공간을 사용합니다.
  • 효과: "동물"이라는 큰 카테고리 아래에 "개구리"가 있고, "개구리" 아래에 "초록색 개구리"가 있는 식으로 **상하 관계 (계층)**를 자연스럽게 정리합니다.
  • 왜 중요할까요? 기존 기술은 "개구리"와 "초록색"을 같은 평면 위에 나란히 두어 구분이 모호했지만, 이 기술은 피라미드처럼 층을 나누어 "개구리"는 아래층, "초록색"은 그 옆의 세부 층에 배치합니다. 이렇게 하면 AI 가 "개구리"와 "초록색"을 명확히 구분하면서도, "초록색 개구리"라는 관계를 자연스럽게 이해하게 됩니다.

2. 마법 공간 2: "조립 가이드 라인" (호로스피어 투영, Horosphere Projection)

  • 비유: 레고 블록을 조립할 때, 블록들이 특정 방향으로만 딱딱 맞춰지도록 가이드 라인을 그리는 것입니다.
  • 효과: "개구리" 블록과 "초록색" 블록을 합치면 반드시 "초록색 개구리"가 나오도록, 그리고 "개구리" 블록만 떼어내면 "개구리"만 남도록 블록들의 결합 방식을 수학적으로 통제합니다.
  • 왜 중요할까요? 기존 기술은 블록을 떼어내면 다시 조립할 때 모양이 뭉개졌지만, 이 기술은 가이드 라인 덕분에 원래 그림을 완벽하게 복원하거나, "개구리"를 "빨간색"으로 바꿔서 "빨간 개구리"를 만드는 등 자유롭게 변형할 수 있게 해줍니다.

🚀 이 기술이 가져오는 변화

  • 이해하기 쉬운 설명: AI 가 "왜 이 그림을 개구리라고 생각했을까?"라고 물으면, "개구리라는 몸체와 초록색이라는 색이 합쳐졌기 때문입니다"라고 명확하게 설명해 줍니다. (기존에는 AI 가 왜 그렇게 판단했는지 알 수 없었습니다.)
  • 정교한 조작: "개구리"는 그대로 두고 "색깔"만 "금색"으로 바꾸거나, "재료"를 "금속"으로 바꾸는 등 원하는 대로 그림을 변형할 수 있습니다.
  • 한 장의 그림으로 학습: 수많은 예시 그림을 볼 필요 없이, 단 한 장의 그림만 보여줘도 이 모든 레고 블록을 찾아내고 조립법을 배웁니다.

📝 한 줄 요약

이 논문은 인공지능이 그림을 볼 때, 단순히 '무엇인가'를 외우는 것이 아니라, 그림을 '조립 가능한 레고 블록'처럼 분해하고 다시 조립할 수 있도록 가르쳐서, AI 의 생각을 사람이 이해하고 조작할 수 있게 만든 기술입니다.