HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

Each language version is independently generated for its own context, not a direct translation.

🍓 1. 문제 상황: 왜 로봇이 딸기를 따기 힘들까?

딸기 농장은 공장의 조립 라인처럼 깔끔하지 않습니다.

시야 가림: 잎사귀가 딸기를 가리고, 햇빛이 반사되어 눈이 부실 수 있습니다.
부드러운 과실: 딸기는 매우 연해서 로봇이 잘못 잡으면 으깨지거나 상처가 납니다.
긴 작업: 딸기를 찾고, 잎을 치우고, 부드럽게 잡고, 떼어내고, 상자에 넣는 일련의 과정이 복잡하게 이어집니다.

기존의 로봇들은 이 일을 하기 위해 "눈 (카메라) → 뇌 (계획) → 손 (제어)"이라는 단계를 따로따로 설계해야 했습니다. 하지만 환경이 조금만 바뀌어도 로봇은 당황해서 일을 못 했습니다.

🤖 2. 해결책: "HarvestFlex"와 "VLA" (눈 - 말 - 행동)

연구팀은 HarvestFlex라는 로봇을 만들었습니다. 이 로봇의 가장 큰 특징은 **VLA(Vision-Language-Action)**라는 새로운 방식을 썼다는 점입니다.

기존 방식: "저기 빨간 게 딸기야 (눈) → 저걸 잡아야 해 (계획) → 손가락을 움직여 (행동)"라고 단계별로 생각했습니다.
새로운 방식 (VLA): "빨간 딸기를 상자에 넣어줘 (말)"라는 명령을 듣고, 눈으로 본 장면과 말의 의미를 바로 손의 움직임으로 변환합니다. 마치 사람이 "저기 있는 빨간 사과 줘"라고 하면, 눈으로 보고 손으로 바로 잡는 것처럼 직관적입니다.

👁️ 3. 로봇의 눈: 3 개의 카메라로 '삼중 시선'

로봇은 딸기를 볼 때 3 개의 카메라를 동시에 사용합니다.

왼쪽/오른쪽 눈 (전경 카메라): 넓은 시야로 "어디에 딸기가 있을까?"를 찾습니다.
손목 눈 (손에 달린 카메라): 딸기에 아주 가까이 갔을 때, 잎사귀 사이로 딸기를 정확히 보고 잡습니다.

비유: 우리가 딸기를 따러 갈 때, 먼저 넓은 시야로 밭을 둘러보고 (전경), 손으로 딸기를 잡을 때는 손가락 끝으로 자세히 확인하죠 (손목). 로봇도 똑같은 원리로 작동합니다.

🎮 4. 가르치는 방법: VR 게임으로 훈련

로봇에게 직접 딸기를 따게 하기 전에, 사람이 VR(가상현실) 고글을 쓰고 로봇을 조종하며 딸기를 따는 모습을 3 시간 40 분 정도 기록했습니다.

사람이 VR 조이스틱으로 로봇을 움직이면, 로봇이 그 움직임을 그대로 따라 합니다.
이 과정을 통해 로봇은 "딸기를 잡을 때 잎을 어떻게 치워야 하고, 어떻게 부드럽게 떼어내야 하는지"를 직접 경험하며 배웠습니다.

🚀 5. 실험 결과: 얼마나 잘할까?

연구팀은 이 로봇을 실제 온실에 데려가 50 번의 시험을 치렀습니다. 결과는 놀라웠습니다.

성공률: 약 **74%**의 성공률을 기록했습니다. (로봇이 처음부터 완벽할 순 없지만, 사람처럼 실수를 하고 다시 시도하는 과정을 거치며 성공했습니다.)
손상률: 딸기가 상할 확률은 **4.1%**로 매우 낮았습니다. 로봇이 딸기를 너무 세게 잡지 않았다는 뜻입니다.
속도: 한 번 딸기를 따는 데 약 32 초가 걸렸습니다. (사람보다는 느리지만, 로봇이 스스로 판단하고 움직인 치명적인 성과입니다.)

⚡ 6. 핵심 기술: "동기식" vs "비동기식" (교통 체증 해결)

로봇이 가장 잘한 비결 중 하나는 작업 방식을 바꾼 것입니다.

동기식 (기존): "눈으로 보고 → 생각해서 → 움직여"를 한 번에 끝내야 했습니다. 생각하는 시간이 길어지면 로봇이 멈추거나 떨리는 문제가 생겼습니다.
비동기식 (이 연구): "눈으로 보고 생각하기"와 "손 움직이기"를 별개의 작업으로 분리했습니다.
- 비유: 요리사가 요리를 준비하는 동안 (생각), 서브가 이미 준비된 요리를 테이블로 나르는 것처럼, 로봇은 생각하는 동안에도 손이 멈추지 않고 계속 움직이게 만들었습니다. 이로 인해 딸기를 잡을 때의 떨림이 줄어들고 성공률이 더 높아졌습니다.

💡 7. 결론: 왜 이 연구가 중요한가?

이 연구는 4 시간도 채 안 되는 짧은 훈련 데이터로, 복잡한 환경에서 로봇이 스스로 딸기를 따는 일을 성공시켰습니다.

기존 방식: 각 농장마다 로봇을 일일이 설계하고 코딩해야 해서 비용이 많이 들고 시간이 오래 걸렸습니다.
이 연구의 방식: "딸기를 따줘"라는 말과 몇 시간의 훈련 데이터만 있으면, 새로운 환경에서도 로봇이 적응할 수 있습니다.

한 줄 요약:

"이 연구는 로봇에게 '눈'과 '말'을 가르쳐, 복잡한 온실에서 사람처럼 딸기를 부드럽게 따는 초보 농부 로봇을 탄생시킨 첫걸음입니다."

이 기술이 발전하면, 앞으로 농촌의 일손 부족 문제를 해결하고, 더 신선하고 안전한 딸기를 저렴하게 먹을 수 있게 될 것입니다! 🍓🤖

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 딸기 수확은 고부가가치 농업 작업이지만, 여전히 인력에 크게 의존하고 있어 계절적 노동력 부족과 비용 상승 문제를 야기합니다.
주요 과제:
- 비구조화된 환경: 온실 테이블탑 딸기 농장은 잎과 가지에 의한 심각한 가림 (occlusion), 다양한 조명 조건 (반사광, 그림자), 그리고 과일의 민감한 접촉 특성을 가지고 있습니다.
- 기존 방식의 한계: 전통적인 모듈형 로봇 시스템 (감지 - 계획 - 제어 분리) 은 각 농장에 대한 많은 튜닝이 필요하며, 관측이 부분적으로 누락되거나 급격히 변할 때 강건성이 떨어집니다.
- VLA 의 적용 필요성: 대규모 멀티모달 사전 학습을 기반으로 한 시각 - 언어 - 행동 (Vision-Language-Action, VLA) 정책이 로봇 조작에 도입되었으나, 실제 딸기 수확과 같은 장시간 (long-horizon), 접촉 민감한 작업에 대한 체계적인 검증은 부족했습니다.

2. 방법론 (Methodology)

A. 시스템 구성 (HarvestFlex Platform)

하드웨어: 6 자유도 (DoF) 로봇 팔과 2 DoF 순응형 (compliant) 엔드 이펙터 (공기 펌프 구동 실리콘 그리퍼) 를 사용했습니다.
센싱: 깊이 정보 (Depth Cloud) 나 명시적인 기하학적 보정을 배제하고, 3 개의 RGB 카메라만 사용했습니다.
- 2 개의 고정된 장면 카메라 (좌/우 시점, Intel RealSense D455).
- 1 개의 손목 장착 카메라 (엔드 이펙터와 동시, Intel RealSense D405).
데이터 수집: VR 원격 조종 (Meta Quest3) 을 통해 3.71 시간 (227 에피소드) 의 실증 데이터를 수집했습니다. 운영자는 1 인으로 모든 수확 워크플로우 (목표 탐색, 접근, 접촉, 분리, 배치) 를 수행하며, 실패 및 복구 구간도 포함하여 자연스러운 분포를 확보했습니다.

B. VLA 정책 적응 (Policy Adaptation)

모델: 오픈 소스 SOTA VLA 모델인 $\pi_0$ , $\pi_0.5$ , WALL-OSS를 베이스라인으로 선정했습니다.
학습 전략:
- 전체 파인튜닝 (Full Fine-tuning): 모든 파라미터를 업데이트하여 새로운 환경과 로봇에 최적화.
- LoRA (Parameter-Efficient Fine-tuning): 계산 비용 절감과 과적합 방지를 위해 저랭크 어댑터만 학습.
입출력: 3 개의 RGB 이미지와 로봇 상태, 언어 명령 ("달린 딸기를 모두 따서 트레이에 넣으세요") 을 입력받아, 7 차원 팔 제어 명령과 3 상태 (흡입, 팽창, 대기) 의 펌프 명령을 출력합니다.

C. 배포 전략 (Deployment)

동기식 (Synchronous): 이미지 획득 → 추론 → 실행의 직렬 루프. 추론 지연이 제어 주기에 영향을 주어 제어 떨림 (jitter) 이 발생할 수 있음.
비동기식 (Asynchronous): 추론 스레드와 실시간 제어 (RTC) 스레드를 분리. 행동 큐 (Action Queue) 를 사용하여 지연을 흡수하고, 새로운 행동 블록이 도착할 때 기존 행동과 가중 평균하여 부드러운 전환을 유도함.

3. 주요 기여 (Key Contributions)

최초의 실증 연구: 온실 테이블탑 딸기 수확이라는 비구조화 작업에 VLA 정책을 적용한 최초의 종단간 (end-to-end) 폐루프 시스템 구축.
재현 가능한 데이터 수집: VR 원격 조종을 통한 장시간 데이터 수집 파이프라인과 LeRobot 프레임워크 통합을 통해 접촉 민감한 과일 수확을 위한 데이터 수집 레시피 제공.
종합 평가 프로토콜: 성공률, 주기 시간, 손상률, 단계별 성공률 등을 포함한 통일된 평가 기준 수립.
실제 로봇 전이 분석: 다양한 오픈 소스 VLA 모델의 전이 학습 성능 비교, 전체 파인튜닝 vs LoRA 의 트레이드오프 분석, 그리고 동기식/비동기식 배포의 영향을 체계적으로 검증.

4. 실험 결과 (Results)

성능 (성공률 및 효율성):
- 최고 성능: $\pi_0.5$ 모델을 전체 파인튜닝하고 비동기식으로 배포했을 때 가장 좋은 성능을 보였습니다.
  - 성공률 (Success Rate): 74.0%
  - 주기 시간 (Cycle Time): 32.6 초/개
  - 손상률 (Damage Rate): 4.1%
- 학습 효과: 에포크 수가 증가함에 따라 성공률이 향상되고 주기 시간이 단축되었습니다. 전체 파인튜닝이 LoRA 보다 일반적으로 더 높은 성공률을 보였습니다.
비동기식 배포의 효과:
- 동기식 (70.0% 성공률, 45.7 초) 대비 비동기식 (74.0% 성공률, 32.6 초) 이 접촉 민감한 '분리 (detach)' 단계에서 더 높은 안정성과 효율성을 입증했습니다.
센서 구성의 영향 (Ablation Study):
- 손목 카메라 (Wrist camera) 가 포함된 3 시점 구성이 가장 중요했습니다.
- 장면 카메라만 사용할 때 (성공률 42.0%) 대비 손목 카메라 추가 시 성공률이 **74.0%**로 크게 향상되었으며, 주기 시간도 61.3 초에서 32.6 초로 단축되었습니다. 이는 근접 관측이 접촉 단계의 성공에 결정적임을 의미합니다.
기존 모듈형 시스템과의 비교:
- 강건성: VLA 는 가림과 반사광에 대한 관측 능력에서 기존 시스템보다 우위를 보였습니다.
- 효율성: 기존 시스템 (8.3 초/개) 이 VLA (32.6 초/개) 보다 빠르지만, 이는 VLA 의 추론 지연 때문입니다.
- 오류 처리: 기존 시스템은 실패 시 고정된 순서로 진행하는 반면, VLA 는 현재 하위 작업 (그립 및 분리) 에 집중하여 재시도하는 등 폐루프 목표에 더 부합하는 행동을 보였습니다.

5. 의의 및 결론 (Significance & Conclusion)

실제 적용 가능성: 4 시간 미만의 실제 데이터만으로도 유의미한 성공 (74% 성공률) 을 거둘 수 있음을 입증하여, VLA 가 농업 수확 분야에서 빠른 배포와 적응이 가능한 기술임을 보였습니다.
기술적 통찰:
- 관측의 중요성: 가림과 반사광이 심한 환경에서는 손목 카메라와 같은 근접 관측이 필수적입니다.
- 배포 아키텍처: 실시간 제어와 추론을 분리하는 비동기식 아키텍처가 접촉 민감한 작업의 안정성을 높이는 핵심 요소입니다.
- 한계: 여전히 심한 가림 상황에서의 관측 손실, 접촉 역학의 불일치 (모형과 실제의 차이), 그리고 극단적인 사례 데이터 부족이 주요 제한 요소로 남았습니다.
미래 전망: 이 연구는 복잡한 농업 환경에서 VLA 기반 로봇의 실용화를 위한 중요한 디딤돌이 되었으며, 향후 더 다양한 데이터 확보와 엔드 이펙터 중심의 센싱 강화, 저지연 배포 최적화를 통해 주기 시간 단축과 품질 향상이 기대됩니다.