Few-Shot Adaptation to Non-Stationary Environments via Latent Trend Embedding for Robotics

Yasuyuki Fujii (College of Information Science and Engineering, Ritsumeikan University, Osaka, Japan), Emika Kameda (College of Information Science and Engineering, Ritsumeikan University, Osaka, Japan), Hiroki Fukada (Production and Technology Department, NIPPN CORPORATION, Tokyo, Japan), Yoshiki Mori (University of Osaka, Osaka, Japan), Tadashi Matsuo (National Institute of Technology, Ichinoseki College, Iwate, Japan), Nobutaka Shimada (College of Information Science and Engineering, Ritsumeikan University, Osaka, Japan)

게시일 2026-03-12

📖 3 분 읽기☕ 가벼운 읽기

보기: arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

🤖 1. 문제: 로봇의 "기억 상실"과 "머리 아픔"

로봇이 공장에서 일할 때, 가장 큰 문제는 환경이 계속 변한다는 것입니다.

예시: 같은 양파를 잡으려 해도, 날씨가 습하면 양파가 무거워지고, 건조하면 가벼워집니다. 로봇 눈에는 똑같은 양파로 보이지만, 실제 무게는 달라지는 거죠.

기존 방식의 문제점:
기존에는 환경이 변할 때마다 로봇의 두뇌 (모델) 를 다시 가르쳤습니다.

비유: 마치 새로운 외국어를 배울 때마다, 이전에 배운 언어를 모두 지우고 다시 시작하는 것과 같습니다.
결과:
1. 기억 상실 (Catastrophic Forgetting): 새로운 것을 배우면 예전에 배운 것을 까맣게 잊어버립니다.
2. 시간 낭비: 매번 처음부터 다시 공부해야 하므로 계산 비용이 너무 많이 듭니다.

💡 2. 해결책: "환경 ID 카드" (Trend ID)

이 논문이 제안한 방법은 로봇의 두뇌를 바꾸지 않고, **로봇에게 "지금 어떤 환경인지" 알려주는 작은 카드 (Trend ID)**를 주는 것입니다.

핵심 아이디어:

비유: 로봇은 **영구적인 두뇌 (고정된 모델)**를 가지고 있습니다. 하지만 상황에 따라 **변하는 신분증 (Trend ID)**을 끼고 다닙니다.
어떻게 작동하나요?
- 로봇이 새로운 환경 (예: 습한 날의 공장) 에 들어오면, 아주 적은 데이터 (몇 번의 시도) 만으로 **"지금의 환경에 맞는 ID 카드"**를 만들어냅니다.
- 이 ID 카드는 로봇의 두뇌에 입력되어, "아, 지금 습한 날이니까 양파가 더 무거울 거야"라고 추측하게 만듭니다.
- 중요한 점: 로봇의 두뇌 자체는 절대 수정되지 않습니다. 그래서 예전에 배운 모든 지식은 그대로 유지됩니다.

🛡️ 3. 핵심 기술: "과잉 학습"을 막는 안전장치

문제는 이 ID 카드를 너무 쉽게 만들면 로봇이 ID 카드만 믿고 실제 사물을 보지 않게 될 수 있다는 점입니다. (비유: 시험 문제를 외워서 답만 맞추는 학생처럼요.)

이 문제를 해결하기 위해 논문은 두 가지 안전장치를 도입했습니다.

시간의 흐름을 고려하다 (Temporal Regularization):
- 비유: 환경은 갑자기 뚝뚝 변하지 않습니다. 습도가 변하더라도 서서히 변합니다.
- 이 방법은 ID 카드가 갑자기 제자리를 뛰지 않고, 매끄럽게 움직이도록 제한합니다. 마치 물이 흐르듯 자연스럽게 환경 변화를 따라가게 하는 거죠.
상태 전이 모델 (State Transition Model):
- 비유: "지금의 상태는 1 초 전의 상태와 비슷할 거야"라고 가정하고, 그 흐름을 유지하도록 강제합니다.
- 이를 통해 로봇은 적은 데이터로도 환경의 변화를 자연스럽게 예측하고, 과거의 경험을 바탕으로 새로운 상황을 추론할 수 있습니다.

🧪 4. 실험 결과: 양파 잡기 미션

이 방법을 실제 양파와 고추를 잡는 로봇에게 적용해 보았습니다.

상황: 세 개의 다른 공장에서, 다른 날짜에, 다른 양파와 고추를 잡는 실험을 했습니다.
결과:
- 로봇은 새로운 공장이나 날씨에 처음 가더라도, 몇 번의 시도만으로 "지금의 환경 ID"를 찾아냈습니다.
- 로봇의 두뇌는 수정되지 않았지만, 새로운 환경에서도 정확하게 무게를 예측했습니다.
- 학습된 ID 카드들은 공간상에서 각 환경별로 깔끔하게 모여 있었고, 시간에 따라 부드럽게 움직이는 궤적을 그렸습니다.

🌟 5. 요약: 왜 이것이 중요한가요?

이 논문이 제안한 방식은 로봇 공학에 다음과 같은 큰 장점을 줍니다.

기억을 잃지 않음: 새로운 것을 배울 때 예전 지식을 지우지 않습니다. (기억 상실 해결)
빠른 적응: 새로운 환경에 가면 몇 번만 시도하면 바로 적응합니다. (Few-shot Adaptation)
이해하기 쉬움: 로봇이 어떤 환경 ID 를 사용 중인지 시각화하면, 왜 로봇이 그런 행동을 했는지 인간이 이해하기 쉽습니다.

한 줄 요약:

"로봇의 두뇌는 그대로 두고, 상황별로 '환경 ID 카드'만 바꿔 끼우면, 로봇은 어떤 환경에서도 실수 없이 일할 수 있다!"

이 기술은 공장, 병원, 혹은 우리 집처럼 환경이 끊임없이 변하는 곳에서 로봇이 오랫동안 안정적으로 일하는 데 큰 도움이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

개념 변화 (Concept Shift): 로봇이 실세계 환경에서 작동할 때, 관측 가능한 입력 데이터 (예: 시각적 이미지) 의 분포는 동일하게 유지되더라도, 관측되지 않는 잠재적 환경 요인 (습도, 온도, 재료 밀도 등) 의 변화로 인해 입력 - 출력 관계가 변하는 현상입니다.
- 예시: 동일한 외관을 가진 음식이라도 습도나 밀도 변화로 인해 로봇이 잡았을 때의 무게가 달라질 수 있습니다.
기존 방법의 한계:
- 모델 파라미터 업데이트: 새로운 환경에 적응하기 위해 모델 가중치를 재학습하면, 이전에 학습한 지식을 잃는 **파괴적 망각 (Catastrophic Forgetting)**이 발생합니다.
- 계산 비용: 환경이 자주 변하는 운영 환경에서 매번 모델을 재학습하는 것은 계산 비용이 너무 높고 비실용적입니다.

2. 제안 방법론 (Methodology)

이 논문은 모델 가중치를 고정하고, 대신 **잠재 환경 상태 (Latent Environmental State)**를 나타내는 저차원 벡터인 **트렌드 ID (Trend ID)**를 추정하여 적응하는 방식을 제안합니다.

A. 핵심 개념: 트렌드 ID (Trend ID)

정의: 관측 데이터에 명시적으로 나타나지 않지만 시스템 행동을 지배하는 숨겨진 환경 상태를 저차원 연속 공간 (Continuous Latent Space) 의 벡터로 표현합니다.
동작 원리:
- 학습 단계: 각 훈련 샘플에 고유한 트렌드 ID 를 할당하고, 이를 모델의 추가 입력으로 사용하여 모델 파라미터 (특징 추출기 제외) 와 함께 최적화합니다.
- 테스트 단계 (Few-Shot Adaptation): 새로운 환경이 등장하면 모델 가중치는 **고정 (Frozen)**된 채, 소량의 관측 데이터 (5~10 개) 만을 사용하여 해당 환경에 맞는 트렌드 ID 만을 역전파 (Backpropagation) 를 통해 추정합니다.

B. 과적합 (Overfitting) 방지 및 정규화

각 샘플마다 고유한 ID 를 학습하면 'ID 누출 (ID Leak)' 현상 (입력 특징을 무시하고 ID 만 의존하는 것) 이 발생할 수 있어 일반화 성능이 떨어집니다. 이를 방지하기 위해 다음과 같은 정규화 기법을 도입했습니다.

상태 전이 모델 (State Transition Model): 환경 상태가 시간적으로 연속적으로 변한다는 가정 하에, **일정 속도 운동 모델 (Constant-Velocity Motion Model)**을 적용합니다.
- 트렌드 ID 의 위치 ( $z_t$ ) 와 속도 ( $\dot{z}_t$ ) 를 상태 벡터로 정의하고, 상태 전이 방정식을 통해 시간적 연속성을 강제합니다.
정규화 손실 함수 (Regularization Loss):
- 상태 전이 손실 ( $L_\epsilon$ ): 예측된 상태 전이 모델과의 편차 (프로세스 노이즈) 를 최소화합니다.
- 속도 일관성 손실 ( $L_v$ ): 인접한 트렌드 ID 간의 위치 변화가 급격하지 않도록 제한합니다.
- 위치 일관성 손실 ( $L_p$ ): 운동 방향의 급격한 변화를 억제하여 궤적의 매끄러움을 보장합니다.

C. 모델 아키텍처

특징 추출기 (Feature Extractor, $F$ ): 고정된 상태 (예: MobileNet) 에서 시각적 특징을 추출합니다.
전결합 층 (Fully Connected Layer, $G$ ): 추출된 특징 ( $f_t$ ) 과 추정된 트렌드 ID ( $z_t$ ) 를 연결 (Concatenation) 하여 입력받습니다.
출력: 조건부 확률 분포 (평균 $\mu_t$ , 분산 $\sigma^2_t$ ) 를 예측하여 불확실성을 고려한 그립 제어 (Grasp Control) 를 수행합니다.

3. 주요 기여 (Key Contributions)

파괴적 망각 회피: 모델 파라미터를 업데이트하지 않고 트렌드 ID 만을 동적으로 제어함으로써, 새로운 환경에 적응하면서도 기존 지식을 완전히 보존합니다.
소량 추론을 통한 빠른 적응: 모델 가중치 고정 하에 소량의 데이터만으로 트렌드 ID 를 최적화하여 단시간에 새로운 환경 상태에 수렴합니다.
잠재 공간의 해석 가능성 (Interpretability): 추정된 트렌드 ID 가 벡터로 표현되므로, 서로 다른 시간 단계나 환경 간의 상태 변화를 정량적으로 비교하고 시각화할 수 있습니다.

4. 실험 결과 (Results)

실험 설정: SCARA 로봇을 이용한 분말 및 조각상 식품 (다진 파, 슬라이스 고추) 의 그립량 추정 (Quantitative Grasping) 태스크 수행.
- 3 개의 다른 공장 (A, B, C) 에서 수집된 데이터로 학습 및 테스트 분할을 수행했습니다.
주요 발견:
1. 구조화된 트렌드 공간: 학습된 트렌드 ID 들은 서로 다른 환경 조건 (공장, 날짜, 물체 유형) 에 따라 잠재 공간의 명확한 영역에 분포하며, 시간적으로 일관된 궤적을 형성했습니다.
2. 미시적 적응 (Unseen Environments): 보지 못한 새로운 환경에서도 소량의 샘플 (Few-shot) 만으로 추정된 트렌드 ID 가 기존 학습된 잠재 공간의 영역 내에 매끄럽게 위치하며, 모델 구조를 파괴하지 않고 적응에 성공했습니다.
3. 개념 변화 대응: 가시적 입력은 동일하더라도 습도/밀도 변화로 인한 그립량 변동을 트렌드 ID 를 통해 효과적으로 보정하여 예측 정확도를 높였습니다.

5. 의의 및 결론 (Significance)

확장성: 다양한 물체와 조건에서 대량의 데이터가 축적되는 환경 (예: 프랜차이즈 공장, 다중 로봇 시스템) 에서 새로운 환경 조건에 순차적으로 적응할 수 있는 확장 가능한 솔루션을 제공합니다.
실용성: 재학습 없이도 실시간으로 환경 변화를 추적할 수 있어, 장기 배포 시나리오나 다중 사이트 로봇 시스템에 매우 적합합니다.
해석성: 잠재 공간에서의 트렌드 ID 궤적을 통해 환경 변화의 패턴을 시각화하고 분석할 수 있어, 로봇의 의사결정 과정을 이해하는 데 기여합니다.

이 연구는 로봇이 역동적이고 예측 불가능한 실세계 환경에서도 기존 지식을 잃지 않으면서 유연하게 적응할 수 있는 새로운 패러다임을 제시합니다.