3D-LFM: Lifting Foundation Model

이 논문은 2D 랜드마크로부터 3D 구조와 카메라를 추정하는 작업에서 기존 방법들의 한계를 극복하고, 트랜스포머의 치환 동치성을 활용해 다양한 객체 클래스에 대해 일반화되며 노이즈와 가려짐에 강인한 최초의 3D 리프팅 파운데이션 모델 (3D-LFM) 을 제안합니다.

Mosam Dabhi, Laszlo A. Jeni, Simon Lucey

게시일 2026-03-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"3D-LFM"**이라는 새로운 인공지능 모델을 소개합니다. 이 모델을 이해하기 위해 일상생활에 비유해 설명해 드리겠습니다.

🎯 핵심 아이디어: "모든 사물을 한 번에 이해하는 만능 3D 번역기"

기존의 컴퓨터 비전 기술들은 **"특정 사물 전용 번역기"**였습니다.

  • 사람 손가락을 3D 로 만들려면 '손 전용' 번역기가 필요했고,
  • 자동차를 3D 로 만들려면 '자동차 전용' 번역기가 필요했습니다.
  • 만약 번역기가 모르는 사물 (예: 치타) 이 나오면, 아예 작동하지 않거나 엉뚱한 결과물을 냈습니다.

하지만 3D-LFM은 다릅니다. 이는 **"만능 3D 번역기"**입니다.
사람, 동물, 의자, 자동차 등 30 가지가 넘는 다양한 사물을 하나의 모델로 동시에 이해하고, 2D 이미지 (평면) 에서 3D 구조 (입체) 로 변환할 수 있습니다. 마치 한 명의 요리사가 이탈리아 파스타, 한국 김치찌개, 일본 스시까지 모두 맛있게 만들어내는 것과 같습니다.


🧩 어떻게 이런 일이 가능한 걸까요? (3 가지 비밀 무기)

이 모델이 이렇게 똑똑해진 데에는 세 가지 핵심 기술이 숨어 있습니다.

1. 순서 상관없는 '퍼즐 맞추기' (Permutation Equivariance)

  • 비유: 가상의 퍼즐 조각들이 있다고 칩시다. 기존 모델은 "1 번 조각은 무조건 머리, 2 번 조각은 무조건 다리"라고 정해져 있어서 순서가 바뀌면 당황했습니다.
  • 3D-LFM 의 방식: "어떤 조각이든 상관없어! 이 조각들이 서로 어떻게 연결되어 있는지만 봐."라고 생각합니다.
  • 효과: 사람 얼굴의 점 17 개든, 개의 다리 점 15 개든, 혹은 의자 다리의 점 8 개든, 점의 개수나 순서가 달라도 모델은 그 사물의 구조를 스스로 파악해 3D 로 만들어냅니다.

2. '위치 감각'을 주는 마법 지문 (Tokenized Positional Encoding)

  • 비유: 지도를 볼 때 "서울은 북쪽에, 부산은 남쪽에 있다"라고 외우는 대신, 지도의 **모든 위치에 고유한 '지문'**을 붙여주는 것과 같습니다.
  • 기술적 설명: 기존에는 각 관절 (점) 이 무엇을 의미하는지 (예: '어깨', '무릎') 미리 알려줘야 했지만, 3D-LFM 은 점들의 상대적인 위치 관계를 수학적으로 계산해냅니다.
  • 효과: 훈련하지 않은 새로운 동물 (예: 치타) 이나 낯선 사물이 나와도, 점들의 위치 관계만 보면 "아, 이건 4 발로 걷는 동물 구나"라고 추측해서 3D 를 재구성할 수 있습니다.

3. '뼈대'만 남기고 살을 붙이는 기술 (Procrustean Alignment)

  • 비유: 3D 모델을 만들 때, 사물이 얼마나 멀리 있는지 (크기) 나 어느 방향으로 돌아있는지 (회전) 는 중요하지 않습니다. 중요한 건 **"관절이 어떻게 연결되어 있는지"**입니다.
  • 기술적 설명: 모델은 사물이 회전하거나 크기만 변하는 '단단한 움직임'은 무시하고, **구부러지거나 늘어나는 '유연한 움직임'**에만 집중하도록 설계되었습니다.
  • 효과: 복잡한 회전 계산을 하지 않아도 되어 계산 속도가 빨라지고, 사물의 진짜 모양 (기하학적 본질) 을 더 정확하게 잡을 수 있습니다.

🌟 이 모델이 얼마나 대단한가요?

  1. 배운 적 없는 것도 잘해요 (OOD Generalization):

    • 훈련 데이터에 '치타'가 없었는데, 실제 치타 사진을 넣으니 3D 로 완벽하게 재현했습니다.
    • 사람 손가락 17 개로 훈련했는데, 15 개 관절로 된 다른 데이터셋에서도 잘 작동했습니다. (이걸 '리그 전이'라고 합니다.)
  2. 데이터가 불균형해도 괜찮아요:

    • 사람 데이터는 많고, 하마 데이터는 거의 없는 불균형 상황에서도 하마를 잘 그릴 수 있습니다. (기존 모델들은 데이터가 적은 사물은 엉망으로 그렸습니다.)
  3. 가장 좋은 성능:

    • 사람, 손, 얼굴 등 특정 분야에 특화된 최신 모델들보다도 더 정확하고 빠른 결과를 보여줍니다.

⚠️ 아직 해결해야 할 문제 (한계점)

이 모델도 완벽하지는 않습니다.

  • 시각적 착각: 사물이 너무 비정상적인 각도에서 찍히면 (예: 호랑이를 옆에서 찍어서 원숭이처럼 보일 때), 모델이 "아, 이건 원숭이구나"라고 잘못 추측할 수 있습니다.
  • 가려진 부분: 사물의 60% 이상을 가려버리면 (예: 사람이 물속에 잠겨 팔만 보이고 몸통이 안 보일 때), 모델이 무엇을 인식해야 할지 헷갈릴 수 있습니다.

📝 결론

3D-LFM은 "2D 이미지를 보고 3D 구조를 만드는" 작업에서 **최초의 '기초 모델 (Foundation Model)'**입니다.
마치 GPT 가 텍스트를 이해하듯, 3D-LFM 은 어떤 사물이든 2D 이미지만 보고 그 3D 뼈대를 이해할 수 있게 되었습니다. 앞으로 증강현실 (AR), 로봇 공학, 게임 제작 등 다양한 분야에서 이 기술이 쓰이면, 우리는 훨씬 더 쉽고 정확하게 가상 세계를 만들 수 있게 될 것입니다.