Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "많이 먹으면 배가 부르나?" (현재의 한계)

로봇을 가르칠 때, 우리는 보통 사람이 직접 조종기를 잡고 로봇을 움직이는 **'시연 데이터 (Demonstration)'**를 많이 모아서 학습시킵니다. 마치 요리 레시피를 배우기 위해 수많은 요리 영상을 보는 것과 비슷하죠.

하지만 여기서 큰 문제가 생깁니다.

사람 실수: 사람이 조종할 때 실수를 하거나, 로봇이 넘어지거나, 물건을 떨어뜨리는 경우도 데이터에 섞여 있습니다.
편차: 조종하는 사람마다 스킬이 다르고, 환경도 다릅니다.

기존에는 "데이터가 많으면 무조건 좋다"라고 생각하며, 실수가 섞인 데이터도 다 학습시켰습니다. 하지만 이는 **"나쁜 레시피 (실수) 도 섞어서 배우니, 로봇이 요리를 망칠 확률이 높아지는 것"**과 같습니다.

2. 해결책: QoQ (Quality over Quantity)

이 논문은 **"모든 데이터를 다 쓰는 게 아니라, 로봇이 진짜 잘할 수 있게 도와주는 '명품 데이터'만 골라내자"**고 제안합니다. 이를 **QoQ (Quality over Quantity)**라고 부릅니다.

핵심 아이디어는 매우 직관적입니다.

"이 데이터 하나를 빼면, 로봇의 실력이 얼마나 떨어질까?"

만약 어떤 데이터를 빼고 나니 로봇이 엉망이 된다면, 그 데이터는 **'명품 (고품질)'**입니다. 반대로 빼도 로봇 실력에 영향이 없다면, 그 데이터는 **'쓰레기 (저품질)'**나 '중복된 정보'일 가능성이 높습니다.

3. 어떻게 골라낼까? (영향력 함수의 마법)

이 논문은 **'영향력 함수 (Influence Functions)'**라는 수학적 도구를 사용합니다. 이를 쉽게 비유하자면 다음과 같습니다.

비유: 요리 교실의 '시식 평가'
- 훈련 데이터: 수많은 요리사들이 만든 요리 레시피 모음집.
- 검증 데이터 (Validation): 우리가 원하는 '완벽한 요리' 레시피 10 개.
- 방법: 레시피 모음집에 있는 한 장의 레시피를 '가상'으로 지웠을 때, 완벽하게 만든 요리 (검증 데이터) 를 만드는 데 방해가 될까요? 아니면 도움이 될까요?
- 결과: 만약 그 레시피를 지우면 완벽 요리가 안 만들어진다면, 그 레시피는 필수적인 명품 레시피입니다.

이론적으로는 좋지만, 로봇 데이터는 너무 방대해서 하나하나 다 지워보고 테스트하는 건 불가능합니다. 그래서 논문은 두 가지 스마트한 전략을 도입했습니다.

전략 1: "가장 중요한 순간만 집중하기" (Maximum Influence)

기존 방식: 모든 검증 데이터를 다 평균내서 점수를 매김. (비유: 모든 요리 평가위원의 평점을 다 합산)
QoQ 방식: **"가장 관련 있는 한 명"**의 평가만 집중해서 봅니다.
- 예시: 로봇이 '바나나를 잡는' 동작을 배울 때, '상자를 여는' 데이터는 중요하지 않습니다. 하지만 '바나나를 잡는' 검증 데이터와 가장 비슷한 훈련 데이터만 골라내야 합니다.
- 이 방법은 잡음 (Noise) 을 줄이고, 로봇이 정말 필요한 핵심 순간 (State-Action Pair) 에만 집중하게 합니다.

전략 2: "한 번에 통째로 고르기" (Trajectory-wise Curation)

기존 방식: 좋은 동작 (예: 손가락을 움직이는 순간) 만 골라내려다 보니, 같은 동작이 반복되어 데이터가 편향됨. (비유: 요리 레시피에서 '소금 넣는 순간'만 100 번 복사해서 레시피를 만듦)
QoQ 방식: **하나의 전체 과정 (Trajectory)**을 점수로 계산해서 통째로 고릅니다.
- 예시: "바나나 잡기"라는 한 번의 성공적인 시연 전체를 하나의 점수로 평가합니다.
- 이렇게 하면 로봇이 **다양한 상황 (도달, 잡기, 이동 등)**을 골고루 배우게 되어, 더 튼튼한 로봇이 됩니다.

4. 실험 결과: "실제 로봇도 놀라워했다"

이론만 좋으면 안 되죠. 실제 실험 결과는 어땠을까요?

시뮬레이션 (가상 로봇): 기존 방법들보다 약 23% 더 높은 성공률을 기록했습니다.
실제 로봇 (실물 로봇): 바나나 잡기, 여러 물체 옮기기, 캐비닛 열기 등 다양한 과제에서 약 30% 더 높은 성공률을 기록했습니다.
야생 데이터 (DROID 데이터셋): 인터넷에 떠도는 다양한 환경에서 수집된 '야생' 데이터에서도, QoQ 는 실패한 데이터를 잘 걸러내고 성공적인 데이터만 골라내어 로봇을 훌륭하게 만들었습니다.

5. 결론: 로봇 교육의 패러다임 변화

이 논문은 우리에게 중요한 메시지를 줍니다.

"로봇을 가르칠 때, 수많은 나쁜 레시피를 쌓아두는 것보다, 몇 개의 완벽한 레시피를 정성껏 골라주는 것이 훨씬 빠르고 효율적이다."

QoQ 는 로봇이 실수를 반복하며 배우는 비효율적인 과정을 줄이고, 가장 핵심적인 '명품 경험'만 학습하게 함으로써, 더 똑똑하고 빠른 로봇을 만드는 길을 열었습니다. 앞으로 로봇이 우리 집이나 공장에서 더 잘 일할 수 있는 비결은 바로 **'데이터의 질'**에 달려 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 로봇 제어 분야에서 시연 학습 (Learning from Demonstrations, LfD) 은 행동 복제 (Behavior Cloning, BC) 를 통해 end-to-end 로 확장 가능한 유망한 패러다임입니다. 특히 대규모 데이터셋을 활용할 때 성능이 향상됩니다.
문제점: 그러나 인간 원격 조종 (Teleoperation) 을 통해 수집된 시연 데이터는 인간 오류, 운영 제약, 조종자 간 숙련도 차이로 인해 노이즈와 비최적 행동 (suboptimal behaviors) 을 포함하고 있습니다.
현황: 데이터의 품질이 정책 (Policy) 성능에 결정적인 영향을 미치지만, 기존 데이터 선별 (Curation) 과정은 대부분 수동적이고 휴리스틱 (heuristic) 에 의존합니다. 기존 방법들은 시연 데이터와 전문가 데이터의 유사성이나 상태 - 행동 분포 간의 상호 정보량 (Mutual Information) 등을 지표로 사용했으나, 이러한 지표들이 실제 정책 성능 향상에 기여하는 데이터를 정확히 식별하지 못하는 한계가 있었습니다.

2. 제안 방법론: QoQ (Quality over Quantity)

이 논문은 **영향 함수 (Influence Functions)**를 기반으로 한 체계적인 데이터 선별 프레임워크인 QoQ를 제안합니다.

핵심 정의: 데이터 품질의 재정의

기존 접근법과 달리, 데이터의 품질을 학습된 정책의 검증 손실 (Validation Loss) 감소에 기여하는 정도로 정의합니다. 즉, 특정 훈련 샘플이 제거되었을 때 검증 데이터셋의 성능이 얼마나 떨어지는지를 통해 데이터의 가치를 측정합니다.

주요 기술적 기여 (Key Techniques)

로봇 시연 데이터에 영향 함수를 직접 적용할 때 발생하는 노이즈와 중복성 문제를 해결하기 위해 두 가지 핵심 기법을 도입했습니다.

최대 영향력 점수화 (Maximum Influence Scoring):
- 기존 영향 함수는 모든 검증 샘플에 대한 평균 영향을 계산하지만, 로봇 작업에서는 특정 상태 - 행동 쌍이 특정 검증 샘플에만 관련이 있을 수 있습니다.
- QoQ 는 각 훈련 상태 - 행동 쌍 $(s, a)$ 에 대해 **모든 검증 샘플 중 가장 높은 영향력 (Gradient 내적의 최대값)**을 점수로 채택합니다.
- 이는 관련 없는 검증 샘플의 노이즈를 줄이고, 가장 관련성 높은 상태 - 행동 쌍을 포착하여 신뢰성을 높입니다.
궤적 단위 선별 (Trajectory-wise Curation):
- 개별 상태 - 행동 쌍을 선택하면 특정 행동 (예: 잡기 동작) 만 과도하게 선택되어 상태 공간 (State Space) 의 커버리지가 떨어지는 문제가 발생합니다.
- QoQ 는 동일한 궤적 (Trajectory) 내의 모든 상태 - 행동 쌍의 영향력 점수를 평균화하여 궤적 전체의 품질 점수를 산출한 후, 상위 $N$ 개의 궤적을 선택합니다.
- 이를 통해 데이터의 다양성을 유지하고 완전한 행동 시퀀스를 확보합니다.

효율성 최적화

현대의 거대 로봇 모델 (수십억 파라미터) 에 적용하기 위해, 비밀집도 계층 (Vision Encoder 등) 을 제외한 일부 계층의 그래디언트만 계산하거나, OPORP(One-permutation One-random-projection) 기법을 사용하여 그래디언트 벡터를 압축함으로써 계산 및 저장 비용을 크게 절감했습니다.

3. 실험 및 결과 (Results)

논문은 시뮬레이션 (Robomimic) 과 실제 로봇 (Franka Research 3) 환경에서 다양한 작업을 통해 QoQ 의 유효성을 입증했습니다.

비교 대상: 모든 데이터 사용 (All Data), 행동 검색 (Behavior Retrieval), 광류 검색 (Flow Retrieval) 등 기존 선별 방법.
성능 향상:
- 시뮬레이션 (Robomimic): QoQ 로 선별된 데이터로 학습한 정책의 성공률은 **99.2%**로, 최상의 베이스라인 (76.0%) 보다 23.2%p 향상되었습니다.
- 실제 로봇 (Banana Grasping): 성공률이 **86.7%**로, 베이스라인 (56.7%) 보다 30.0%p 향상되었습니다.
- 다중 객체 선별 (Multi-object): 다양한 객체 데이터에서 특정 객체 (바나나) 작업에 유용한 데이터를 선별했을 때, 베이스라인이 실패한 것과 대조적으로 **93.3%**의 성공률을 기록했습니다.
야생 데이터 (In-the-wild) 적용: DROID 데이터셋과 같이 다양한 환경과 객체 위치를 가진 야생 데이터에서도 QoQ 는 높은 선별 정확도 (Curation Accuracy) 를 보이며, VAE 기반의 기존 방법들이 겪는 도메인 간 불일치 문제를 해결했습니다.
정책 롤아웃 검증: 별도의 검증 데이터셋이 없더라도, 초기 정책의 실패/성공 롤아웃 (Rollout) 을 검증 세트로 활용하여 QoQ 점수를 계산하는 방식도 효과적이었음을 입증했습니다.

4. 의의 및 결론 (Significance & Conclusion)

데이터 중심 로봇 학습의 패러다임 전환: 단순히 데이터의 양을 늘리는 것이 아니라, 정책 성능에 직접적인 기여도를 기준으로 고품질 데이터를 선별하는 체계적인 방법론을 제시했습니다.
실용성: 계산 비용이 큰 영향 함수를 로봇 모델에 적용 가능한 수준으로 최적화하여, 대규모 VLA(Vision-Language-Action) 모델에도 확장 가능함을 보였습니다.
일반화: 시뮬레이션과 실제 로봇, 단일 작업부터 복잡한 다중 작업 및 야생 데이터까지 광범위한 환경에서 일관된 성능 향상을 보여주어, 로봇 학습의 데이터 효율성을 극대화하는 강력한 도구임을 입증했습니다.

이 연구는 로봇 학습에서 "데이터의 양"보다 "데이터의 질"이 중요함을 강조하며, 영향 함수를 활용한 정량적 데이터 선별이 성공적인 로봇 제어 정책 학습의 핵심 열쇠임을 보여줍니다.