Jun Saito, Jiefeng Li, Michael de Ruyter, Miguel Guerrero, Edy Lim, Ehsan Hassani, Roger Blanco Ribera, Hyejin Moon, Magdalena Dadela, Marco Di Lucca, Qiao Wang, Xueting Li, Jan Kautz, Simon Yuen, Uma

게시일 2026-03-18

📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

SOMA: 모든 3D 캐릭터를 하나로 묶어주는 '만능 번역기'

NVIDIA 에서 발표한 SOMA라는 새로운 기술은 3D 캐릭터와 인간 모델을 다루는 방식에 혁명을 일으킬 것 같습니다. 이 기술을 쉽게 이해할 수 있도록 일상적인 비유로 설명해 드리겠습니다.

1. 문제 상황: 서로 다른 언어를 쓰는 친구들

지금까지 3D 인간 모델을 만드는 데는 SMPL, MHR, Anny 등 여러 가지 방식 (모델) 이 있었습니다. 하지만 이 친구들은 서로 말이 통하지 않았습니다.

SMPL은 "내 몸은 이 모양이야"라고 말하지만, Anny는 "내 몸은 저 모양이야"라고 합니다.
MHR은 "내 뼈 길이가 달라"라고 하고, GarmentMeasurements는 "옷 치수가 중요해"라고 합니다.

이런 상황은 마치 한국어, 영어, 프랑스어를 쓰는 세 친구가 한 방에 모여서 춤을 추려고 할 때와 같습니다.

한국 친구는 한국 춤을 추고, 프랑스 친구는 발레를 추고, 영어 친구는 힙합을 춥니다.
서로 춤을 맞춰주려면, 한국 친구가 프랑스 춤을 배워야 하고, 프랑스 친구가 한국 춤을 배워야 합니다. (이걸 '어댑터'라고 부릅니다.)
친구가 5 명이면 서로 10 가지 조합을 모두 배워야 해서 너무 복잡하고 비효율적입니다.

2. SOMA 의 해결책: '만능 번역기'와 '공통 무대'

SOMA 는 이 문제를 해결하기 위해 세 가지 마법 같은 단계를 제안합니다.

① 공통 무대 만들기 (메쉬 토폴로지 추상화)

SOMA 는 모든 친구들을 **하나의 공통된 무대 (SOMA 토폴로지)**로 초대합니다.

한국 친구든, 프랑스 친구든, 이 무대 위에 서면 모두 동일한 옷차림과 몸 구조를 갖게 됩니다.
마치 모든 나라의 춤꾼들이 같은 의상과 같은 무대를 공유하는 것과 같습니다.
이 과정은 아주 빠릅니다. 컴퓨터가 미리 계산해 둔 '지도'만 보면 되어서, 실시간으로 몸의 모양을 변환할 때 신경 쓸 필요가 없습니다.

② 춤 동작을 통일하기 (포즈 추상화)

이제 춤 동작 (포즈) 을 통일합니다.

예전에는 한국 춤꾼이 프랑스 춤 동작을 따라 하려면, 프랑스 춤 동작을 한국 춤꾼의 몸짓으로 다시 번역해야 했습니다.
SOMA 는 모든 춤 동작을 'SOMA 춤'이라는 공통 언어로 번역해 줍니다.
이제 한국 친구든, 프랑스 친구든 **같은 춤 동작 (SOMA 포즈)**을 받으면, 각자의 몸매에 맞춰서 자연스럽게 춤을 춥니다.
중요한 점: 이 번역기는 학습이 필요 없습니다. 수학적 공식을 바로 적용해서 순식간에 번역해냅니다.

③ 자연스러운 움직임 추가 (포즈 커렉티브)

인간은 팔을 구부릴 때 팔꿈치가 꺾이는 것처럼 자연스러운 움직임이 필요합니다.

예전에는 각 모델마다 이 자연스러운 움직임을 따로따로 배워야 했습니다.
SOMA 는 **하나의 '자연스러운 움직임 AI'**를 만들어서 모든 친구에게 공유합니다.
이 AI 가 "팔꿈치를 구부릴 때 이렇게 살이 찌부러져야 해"라고 알려주면, 모든 모델이 똑같이 자연스럽게 움직입니다.

3. SOMA 가 가져온 변화

이제 이 기술이 적용되면 어떤 일이 일어날까요?

자유로운 조합: 연구자나 개발자는 "Anny 모델의 아기 몸매"에 "SMPL 모델의 춤 동작"을 바로 붙일 수 있습니다. 별도의 번거로운 변환 과정 없이 바로 가능합니다.
속도: 이 모든 과정이 **GPU(그래픽 카드)**에서 매우 빠르게 돌아갑니다. 초당 수천 개의 캐릭터를 처리할 수 있을 정도로 빠릅니다.
정확도: 서로 다른 모델을 섞어도 몸의 모양이 찌그러지지 않고, 원래의 특징을 잘 살려줍니다.

4. 마치...

SOMA 는 **3D 인간 모델 세계의 '유니버설 어댑터'**이자 **'만능 번역기'**입니다.
이전에는 서로 다른 모델끼리 대화하려면 각각의 언어를 배워야 했지만, SOMA 는 모든 모델을 하나의 공통 언어로 바꿔주어 서로 자유롭게 소통하고 협업할 수 있게 해줍니다.

이제 3D 캐릭터를 만드는 일은 더 이상 "언어 장벽"에 시달리는 일이 아니라, 자유롭게 창의성을 발휘하는 즐거운 놀이가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

SOMA: 이질적인 파라메트릭 인간 신체 모델 통합 (SOMA: Unifying Parametric Human Body Models)

이 논문은 컴퓨터 비전, 그래픽스, 물리 AI 분야에서 널리 사용되지만 서로 호환되지 않는 다양한 파라메트릭 인간 신체 모델 (SMPL, SMPL-X, MHR, Anny, GarmentMeasurements 등) 을 단일 파이프라인으로 통합하는 새로운 프레임워크 SOMA를 제안합니다.

1. 문제 정의 (Problem)

기존의 파라메트릭 인간 신체 모델들은 각각 고유한 메쉬 토폴로지, 관절 계층 구조, 단위 체계, 그리고 파라미터 공간을 정의하고 있습니다. 이로 인해 다음과 같은 심각한 단편화 문제가 발생합니다.

상호 비호환성: 한 모델의 식별자 (Identity, 신체 형태) 데이터와 다른 모델의 모션 데이터를 결합하려면 매 모델 쌍마다 별도의 토폴로지 변환, 관절 피팅, 좌표계 변환 파이프라인을 구현해야 합니다.
비효율성: $M$ 개의 모델을 지원하려면 $O(M^2)$ 개의 어댑터 (pairwise adapters) 가 필요하여, 새로운 모델을 추가하거나 기존 모델을 교체할 때마다 막대한 개발 비용이 발생합니다.
강점 활용 불가: 각 모델이 가진 고유한 강점 (예: Anny 의 연령대별 표현력, MHR 의 뼈 길이 정밀도, SMPL 의 광범위한 데이터 호환성) 을 단일 파이프라인에서 자유롭게 활용하기 어렵습니다.

2. 방법론 (Methodology)

SOMA 는 이질적인 표현들을 하나의 표준화된 표현으로 매핑하기 위해 **3 개의 추상화 계층 (Abstraction Layers)**으로 구성된 통합 바디 레이어를 제안합니다.

2.1. 메쉬 토폴로지 추상화 (Mesh Topology Abstraction)

목적: 다양한 소스 모델의 고유 토폴로지를 SOMA 의 표준 메쉬 (Canonical Mesh) 로 변환합니다.
기술: 초기화 단계에서 각 소스 모델의 중립 메쉬와 SOMA 템플릿 메쉬 간의 고정된 3D 바리센트릭 (barycentric) 대응 관계를 사전 계산합니다.
동작: 런타임 시, 신경망 순전파나 반복적 솔버 없이, 사전 계산된 바리센트릭 좌표를 사용하여 소스 메쉬의 정점을 SOMA 메쉬로 빠르게 변환 (Gather) 합니다. 이는 정점 수에 무관한 상수 시간 연산으로 이루어집니다.

2.2. 골격 추상화 (Skeletal Abstraction)

목적: 변환된 신체 형태에 맞춰 SOMA 의 표준 77 관절 (J=77) 골격을 자동으로 피팅합니다.
기술: SkeletonTransfer 알고리즘을 사용하여 두 단계로 나뉩니다.
1. 관절 위치 회귀 (RBF): 바디 표면의 정점 위치를 기반으로 라디얼 베이스 함수 (RBF) 를 사용하여 각 관절의 3D 위치를 분석적으로 예측합니다.
2. 관절 회전 피팅 (Kabsch Alignment): 예측된 관절 위치를 기반으로, Kabsch 정렬 알고리즘 (Procrustes analysis) 을 사용하여 각 관절의 로컬 좌표계 회전 방향을 결정합니다.
특징: 반복 최적화나 모델별 학습 없이 단일 분석적 순전파 (closed-form pass) 로 수행됩니다.

2.3. 포즈 추상화 (Pose Abstraction)

목적: 이미 포즈가 적용된 메쉬 (SMPL, MHR 등) 에서 SOMA 의 표준 관절 회전 파라미터를 역추적합니다.
기술:
- 초기화: 위 2 단계의 골격 피팅을 통해 초기 회전 값을 추정합니다.
- 반복 정제 (Iterative Refinement): 역 LBS (Linear Blend Skinning) 알고리즘을 사용하여 관절 회전 값을 정제합니다.
- Newton-Schulz Orthogonalization: SVD 기반의 Kabsch 알고리즘이 근접 평면 (near-coplanar) 데이터에서 발생할 수 있는 특이점 (singularities) 으로 인한 회전 불연속성 ("shoulder popping") 을 해결하기 위해, Newton-Schulz 반복법을 사용하여 회전 행렬의 직교성을 유지하며 안정적으로 수렴합니다.
- Autograd 정제 (선택 사항): 더 높은 정확도가 필요할 경우, 분석적 해를 초기값으로 사용하여 미분 가능한 FK+LBS 파이프라인을 통해 Adam 옵티마이저로 미세 조정할 수 있습니다.

2.4. 통합 포즈 교정 (Unified Pose Correctives)

SOMA 는 모든 백엔드 (모델) 에 공통적으로 적용되는 단일 MLP 기반의 포즈 교정 모델을 제공합니다. 이는 표준 LBS 에서 발생하는 관절 부위의 비현실적인 변형 (예: 팔꿈치, 어깨) 을 보정하여 해부학적으로 타당한 변형을 생성합니다.

3. 주요 기여 (Key Contributions)

식별자 - 포즈 분리 (Identity-Pose Decoupling): SOMALayer 를 통해 어떤 백엔드의 식별자 (신체 형태) 와도 호환되는 단일 포즈 인터페이스를 제공합니다.
$O(M^2) \to O(M)$ 복잡도 감소: 모델 간 어댑터 문제를 단일 백엔드 연결자로 줄여, 런타임 시 식별자 소스와 포즈 데이터를 자유롭게 혼합할 수 있게 합니다.
완전 미분 가능 (Fully Differentiable): 전체 파이프라인이 미분 가능하여 대규모 최적화 및 머신러닝 학습 파이프라인에 직접 통합 가능합니다.
GPU 가속화: NVIDIA Warp 를 활용하여 실시간 성능을 보장하며, 반복 최적화나 모델별 학습이 필요 없습니다.

4. 실험 결과 (Results)

토폴로지 변환 정밀도: SMPL, SMPL-X, Anny, MHR 등 다양한 모델에서 SOMA 메쉬로의 변환 오차가 평균 0.01mm~0.40mm 수준으로 매우 낮습니다.
포즈 역추적 정확도:
- Analytical Solver: 평균 5.3mm 오차, 초당 882 프레임 처리.
- Analytical + Autograd: 평균 4.1mm 오차로 정확도 향상 (손, 발, 머리 부위 오차 30~57% 감소).
- 초기화 중요성: 초기화 없이 Autograd 만을 사용할 경우 수렴 실패 (500mm 이상 오차) 하지만, SOMA 초기화 시 성공적으로 수렴합니다.
성능: NVIDIA A100 GPU 에서 배치 크기 128 기준 초당 7,000 개 이상의 메쉬 처리 (Forward Pass) 가 가능합니다.
크로스 모델 비교: SOMA 를 통해 서로 다른 PCA 기반 모델 (SMPL, GarmentMeasurements 등) 간의 형태 비교가 가능해졌으며, SOMA-Shape(128 성분) 가 SMPL-X(300 성분) 와 유사한 재구성 정확도를 보여주었습니다.

5. 의의 및 결론 (Significance)

SOMA 는 인간 신체 모델링 분야에서 오랫동안 존재해 온 "모델 간 장벽"을 해소하는 획기적인 솔루션입니다.

유연성: 연구자와 개발자는 특정 모델에 종속되지 않고, 가장 적합한 식별자 모델 (예: 아동용 Anny, 정밀한 MHR) 과 모션 데이터 (AMASS 등) 를 자유롭게 조합하여 사용할 수 있습니다.
확장성: 새로운 모델을 추가할 때 $O(M)$ 비용만 들면 되므로 생태계의 확장이 용이합니다.
실용성: 완전 미분 가능하고 GPU 가속된 아키텍처는 생성형 AI, 가상 인간, 물리 시뮬레이션 등 차세대 응용 분야에서 필수적인 인프라가 될 것입니다.

결론적으로, SOMA 는 이질적인 파라메트릭 모델들을 하나의 통일된 언어로 번역하여, 인간 신체 재구성 및 애니메이션의 표준을 제시하는 중요한 기술적 도약입니다.

SOMA: Unifying Parametric Human Body Models