REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting

이 논문은 3D 가우시안 스플래팅 표현과 다중 모달 LLM 에이전트를 결합하여 복잡한 자연어 지시를 정밀한 3D 객체 분할 및 편집으로 변환하는 'REALM' 프레임워크를 제안하며, 특히 전역에서 국소로 이어지는 공간적 그라운딩 전략을 통해 견고한 3D 추론 성능을 달성합니다.

Changyue Shi, Minghao Chen, Yiping Mao, Chuxiao Yang, Xinyuan Hu, Jiajun Ding, Zhou Yu

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌍 REALM: 3D 세상을 이해하고 조종하는 '똑똑한 AI 비서'

이 논문은 **"REALM"**이라는 새로운 AI 시스템을 소개합니다. 쉽게 말해, 이 시스템은 우리가 말로 지시하는 복잡한 명령을 듣고, 3D 공간 속의 물체를 찾아내거나 (분할), 원하는 대로 고쳐주는 (편집) 일을 해주는 초지능 비서입니다.

기존의 AI들은 "컵을 찾아줘" 같은 단순한 명령은 잘 했지만, "사과 옆에 있는 의자를 치워줘"나 "파란색을 좋아하는 아이를 위해 어떤 장난감을 찾아줘?"처럼 상황을 이해하고 추론해야 하는 복잡한 명령에는 약했습니다. REALM 은 바로 이 부분을 해결합니다.

이 시스템을 이해하기 위해 세 가지 핵심 비유를 들어보겠습니다.


1. 🎨 3D 세상을 '살아있는 그림'으로 바꾸다 (가우스 스플래팅)

기존의 3D 데이터는 점 (Point Cloud) 이나 복잡한 수학적 모델로 되어 있어, AI 가 보기에 마치 '점박이 그림'처럼 어색했습니다. 하지만 REALM 은 **3D 가우스 스플래팅 (3DGS)**이라는 기술을 사용합니다.

  • 비유: Imagine 3D 공간이 **수천 개의 반짝이는 구슬 (가우스)**로 가득 차 있다고 상상해 보세요. 이 구슬들은 서로 겹쳐져서 마치 실제 사진처럼 선명하고 생생한 3D 장면을 만들어냅니다.
  • 효과: AI 가 이 '구슬 세상'을 볼 때, 마치 우리가 스마트폰으로 찍은 고화질 사진을 보는 것처럼 자연스럽습니다. 그래서 AI 는 이 사진을 보고 "아, 저기 저게 사과구나!"라고 쉽게 알아챕니다.

2. 🕵️‍♂️ "먼저 넓은 곳에서 찾고, 그다음 자세히 살펴봐" (글로벌 - 로컬 전략)

이 시스템의 가장 큰 특징은 실수하지 않기 위해 여러 각도에서 확인하는 방식입니다.

  • 문제점: 만약 AI 에게 3D 장면의 사진 한 장만 보여주고 "저기 사과 옆에 있는 의자를 찾아줘"라고 하면, 카메라 각도가 나쁘면 의자가 가려져서 못 찾을 수 있습니다. 반대로 사진 100 장을 한 번에 보여주면 AI 가 너무 혼란스러워합니다.
  • REALM 의 해결책 (GLSpaG):
    1. 글로벌 단계 (Global): AI 는 먼저 3D 장면의 **여러 각도 (예: 앞, 뒤, 옆, 위에서)**에서 찍은 사진을 한 번에 봅니다. 마치 수색대가 넓은 지역을 빠르게 훑어보며 "아, 사과와 의자가 저쪽 구석에 있겠구나!"라고 대략적인 위치를 파악합니다.
    2. 로컬 단계 (Local): 대략적인 위치를 찾으면, 이제 현미경을 들이대듯 그 물체 주변으로 카메라를 가까이 가져갑니다. 그리고 고해상도로 찍은 사진들을 통해 **"정말 이게 사과 옆의 의자 맞나?"**를 꼼꼼히 확인하고 정확한 윤곽선을 그립니다.

3. 🛠️ "이건 치워, 저건 바꿔줘" (3D 편집 능력)

물체를 정확히 찾아낸 후, REALM 은 마법처럼 3D 장면을 편집할 수 있습니다.

  • 비유: 마치 레고 블록을 조립하듯, AI 는 특정 물체만 정확히 떼어내거나 다른 것으로 바꿔치기 할 수 있습니다.
  • 예시:
    • 제거: "사과 옆에 있는 의자를 치워줘" → AI 는 의자만 정확히 찾아내어 지우고, 나머지 배경은 그대로 둡니다.
    • 변환: "그 노란 장난감을 빨간 사과로 바꿔줘" → 장난감의 모양은 유지하되, 색과 질감을 사과로 바꿉니다.
    • 스타일 변경: "이 아이스크림을 금으로 만들어줘" → 아이스크림만 반짝이는 금색으로 변신시킵니다.

💡 왜 이 기술이 중요한가요?

지금까지의 AI 는 "컵"이나 "의자"처럼 단순한 이름만 알면 됐습니다. 하지만 인간은 **"파란색을 좋아하는 아이를 위해 장난감을 찾아줘"**처럼 상황과 감정을 고려한 추론을 합니다.

  • 기존 AI: "파란색" + "장난감" = 파란색 장난감 모두를 보여줌 (과도한 검색).
  • REALM: "파란색을 좋아하는 아이" + "행복하게 해줄 것" = 파란 코끼리 장난감을 정확히 찾아냄 (추론 성공).

이처럼 REALM 은 **인간의 복잡한 생각 (추론)**을 3D 공간에서 **정확한 행동 (물체 찾기 및 수정)**으로 연결해 줍니다. 이는 향후 로봇이 우리 집안일을 도와주거나, 가상 현실 (VR) 에서 자연스러운 상호작용을 할 수 있는 토대가 될 것입니다.

🚀 요약

REALM은 3D 세상을 생생한 사진처럼 보고, **수색대 (글로벌)**와 **현미경 (로컬)**을 번갈아 쓰며 복잡한 명령을 추론해내고, 찾은 물체를 마법처럼 편집해 주는 차세대 3D AI 비서입니다.