CoViLLM: An Adaptive Human-Robot Collaborative Assembly Framework Using Large Language Models for Manufacturing

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"코비름 (CoViLLM)"**이라는 새로운 시스템을 소개합니다. 이 시스템은 공장에서 로봇과 인간이 손잡고 일하는 방식을 혁신적으로 바꿉니다.

기존의 공장 로봇들은 마치 **"무식한 로봇"**과 같습니다. 미리 입력된 명령만 따를 뿐, 새로운 부품이 나오거나 순서가 바뀌면 당황해서 멈춰버립니다. 하지만 이 논문이 제안하는 코비름은 **"똑똑한 비서"**가 곁에 있는 것과 같습니다.

이 시스템을 이해하기 쉽게 세 가지 핵심 요소로 나누어 설명해 드릴게요.

1. 문제 상황: "예전엔 잘했는데, 갑자기 새 부품이 나오면?"

기존의 공장 로봇은 미리 정해진 레시피 (명령) 대로만 움직입니다.

기존 방식: "빨간 톱니바퀴를 먼저 끼우고, 그다음 파란 핀을 꽂아라"라고 프로그래밍해 두면, 로봇은 그걸만 반복합니다.
문제점: 만약 갑자기 **"새로운 모양의 톱니바퀴"**가 들어오거나, **"순서를 바꿔서 먼저 파란 핀을 꽂아야 한다"**고 하면, 로봇은 "이게 뭐야?", "어디에 두는 거지?"라며 멈춰버립니다. 인간이 직접 로봇을 다시 가르쳐야 하니까 시간이 많이 걸립니다.

2. 해결책: 코비름 (CoViLLM) 의 세 가지 능력

코비름은 로봇에게 세 가지 새로운 능력을 부여합니다.

① "깊이 있는 눈" (Depth Camera Localization)

비유: 로봇은 안경을 쓴 탐정 같습니다.
기능: 로봇은 카메라로 작업대를 비추는데, 단순히 '무엇'인지만 보는 게 아니라 **'얼마나 멀리 있는지, 높이가 얼마나 되는지'**를 정밀하게 측정합니다. 마치 손으로 만져보듯 공간의 깊이를 파악해서 "아, 저기 작은 톱니바퀴가 있구나"라고 위치를 정확히 잡습니다.

② "스마트 비서" (Large Language Model - LLM)

비유: 로봇의 뇌에 유능한 통역사兼 기획자가 들어갔습니다.
기능: 인간이 "저기 오른쪽에 있는 새 부품부터 조립해 줘"라고 말하면, 로봇은 그 말을 듣고 **"아, 오른쪽에 있는 게 새 부품이구나. 그럼 그걸 먼저 잡고, 그다음에 이걸로 이어야지"**라고 스스로 계획을 세웁니다.
중요한 점: 이 '비서'는 새로운 부품 이름도 모를 때, 인간이 "저건 '빅기어'라고 해"라고 알려주면 그 정보를 기억하고 다음부터는 스스로 처리할 수 있습니다.

③ "인간과의 대화" (Human-in-the-loop)

비유: 로봇과 인간은 팀워크가 완벽한 파트너입니다.
기능: 로봇이 "이게 뭘까요?"라고 물으면, 인간이 "저건 '빅핀'이야"라고 말해줍니다. 로봇은 그 말을 듣고 "알겠습니다, 빅핀을 조립하겠습니다"라고 답하며 작업을 이어갑니다. 인간이 로봇을 가르쳐 주는 순간, 로봇은 그 지식을 즉시 활용합니다.

3. 실험 결과: 실제로 잘 작동할까?

연구진은 이 시스템을 테스트하기 위해 세 가지 상황을 만들었습니다.

기존 제품 (Case 1): 로봇이 이미 아는 제품입니다. 로봇이 혼자서 척척 조립했습니다. (기본 실력 확인)
주문형 제품 (Case 2): 부품은 알지만, 조립 순서를 바꾼 경우입니다. 인간이 "순서를 바꿔서 이 순서로 해"라고 말하자, 로봇은 순서를 바꿔서 성공적으로 조립했습니다. (유연성 확인)
새로운 제품 (Case 3): 아예 처음 보는 부품이 포함된 경우입니다. 로봇이 "이게 뭐죠?"라고 묻고, 인간이 "저건 '빅기어'야"라고 알려주자, 로봇은 그 정보를 받아들여 새로운 제품을 성공적으로 조립했습니다. (적응력 확인)

결론: 왜 이것이 중요한가요?

이 논문은 **"로봇이 인간의 말을 듣고, 새로운 것을 배우며, 유연하게 일할 수 있다"**는 것을 증명했습니다.

과거: 로봇은 "미리 정해진 대로만" 일함.
현재 (코비름): 로봇은 "인간의 말대로" 일하고, "새로운 것을 배우며" 일함.

이 기술이 발전하면, 앞으로 우리가 원하는 맞춤형 제품 (예: 나만의 디자인 신발, 특별한 모양의 자동차 부품 등) 을 만들 때, 공장에서 로봇을 다시 가르칠 필요 없이 자연스럽게 대화하며 바로 생산할 수 있게 될 것입니다. 마치 마법처럼 로봇이 인간의 아이디어를 현실로 만들어주는 시대가 오는 것입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: CoViLLM (대규모 언어 모델을 활용한 적응형 인간 - 로봇 협업 조립 프레임워크)

1. 문제 정의 (Problem)

배경: 대량 맞춤화 (Mass Customization) 수요의 증가로 인해, 기존 규칙 기반 (Rule-based) 의 제조용 로봇은 새로운 제품 변형이나 맞춤 제품에 유연하게 대응하는 데 한계가 있습니다.
기존 HRC 의 한계: 기존의 인간 - 로봇 협업 (HRC) 시스템은 대부분 사전 정의된 지각 - 조작 파이프라인에 의존합니다. 이는 새로운 제품이나 사전에 정의되지 않은 조립 순서를 자동으로 계획하는 능력이 부족하다는 것을 의미합니다. 또한, 로봇과의 상호작용을 위해 코딩이나 특수한 훈련이 필요하여 사용자에게 심리적 부담을 주고 있습니다.
핵심 과제: 기존 컴퓨터 비전 모델 (예: YOLO) 은 훈련된 데이터셋에 없는 '새로운 구성 요소 (Unseen Components)'를 인식하지 못하며, 기존의 HRC 프레임워크는 동적 제조 환경에서 맞춤형 및 신제품 조립 시 실시간 적응이 어렵습니다.

2. 제안된 방법론 (Methodology: CoViLLM)

저자들은 CoViLLM (Collaborative Vision and Large Language Model) 이라는 새로운 적응형 인간 - 로봇 협업 조립 프레임워크를 제안했습니다. 이 시스템은 다음과 같은 핵심 모듈로 구성됩니다.

시스템 아키텍처:
1. 깊이 카메라 기반 국소화 (Depth-camera-based Localization):
  - 표면 질감이나 클래스 레이블에 의존하지 않고, 깊이 불연속성 (Depth Discontinuities) 을 활용하여 작업 공간 내 물체를 분할하고 국소화합니다.
  - 알고리즘 1 에서는 원시 깊이 맵을 노이즈 제거, 이진 마스크 생성, 히스토그램 기반 배경 제거, 형태학적 연산 등을 거쳐 물체의 중심 좌표 $(x, y, z)$ 를 추출합니다.
2. 인간 운영자 분류 (Human Operator Classification):
  - 새로운 구성 요소가 감지되면, 인간 운영자가 자연어 (음성) 를 통해 해당 물체의 상대적 위치 (예: "기준 물체 오른쪽에 있는 것") 를 제공합니다.
  - 이 피드백은 시스템이 새로운 구성 요소에 의미 있는 레이블을 부여하도록 돕습니다.
3. LLM 기반 추론 및 작업 계획 (LLM-based Reasoning & Planning):
  - 자연어 인터페이스: 운영자의 음성 명령을 텍스트로 변환하여 LLM 에 입력합니다.
  - 동적 계획: LLM 은 운영자의 지시, 국소화 정보, 그리고 인간이 제공한 분류 정보를 종합하여 구조화된 조립 순서 ( $p_i(L, C)$ ) 를 생성합니다.
  - 할루시네이션 방지: 제조 환경의 신뢰성을 높이기 위해 시스템 프롬프트 설계, 전용 평가 데이터셋 구축, 그리고 인간 운영자의 반복적 프롬프트 정제 과정을 통해 LLM 의 출력 정확도를 보장합니다.
4. 좌표 변환 및 로봇 실행:
  - 카메라 좌표계의 픽셀 좌표를 로봇 베이스 좌표계로 변환 (Pinhole 카메라 모델 및 강체 변환 활용) 하여 로봇 팔 (UFactory xArm) 이 실행 가능한 궤적으로 변환합니다.

3. 주요 기여 (Key Contributions)

LLM 기반 HRC 프레임워크: 자연어 운영자 지시로부터 맞춤형 제품 및 신제품의 조립 순서를 동적으로 생성하는 새로운 프레임워크를 제시했습니다.
실시간 인간 - 루프 협업 지각 (Runtime Human-in-the-loop Perception): 깊이 기반 국소화, 운영자 피드백, LLM 추론을 결합하여 기존 시스템이 인식하지 못했던 새로운 제조 구성 요소를 실시간으로 식별하고 분류하는 방식을 개발했습니다.
유연한 조립 프로세스: 사전 정의된 제품 및 작업 설정을 넘어, 자연어 기반의 지시와 실시간 지각을 통해 인간 중심의 유연한 협업 조립을 가능하게 했습니다.

4. 실험 결과 (Results)

실험 환경: NIST 조립 작업 보드 (NATB1) 를 기반으로 한 6 자유도 (6DOF) 로봇 팔과 Intel RealSense 깊이 카메라를 사용하여 검증했습니다.
평가 시나리오:
- Case 1 (알려진 제품): 사전 정의된 순서로 조립 (기존 시스템 검증).
- Case 2 (맞춤형 제품): 알려진 부품이지만 새로운 조립 순서 (동적 계획 능력 검증).
- Case 3 (신제품): 시스템이 처음 보는 새로운 부품 포함 (완전한 적응성 검증).
성능:
- 국소화: 적절한 카메라 높이 (400mm) 에서 깊이 맵 필터링이 성공적으로 수행될 경우, 물체 좌표 추정 정확도가 높았습니다.
- 작업 계획: 프롬프트 엔지니어링을 통해 LLM 의 출력을 최적화한 결과, 모든 3 가지 시나리오에서 100% 의 작업 계획 정확도를 달성했습니다.
- 상호작용: 새로운 부품이 발견될 경우, 로봇은 인간 운영자와의 자연어 대화를 통해 부품을 식별하고 분류한 후 조립을 완료하는 적응형 상호작용 전략을 성공적으로 시연했습니다.

5. 의의 및 결론 (Significance & Conclusion)

의의: 본 연구는 제조업의 대량 맞춤화 요구에 부응하여, 사전 프로그래밍된 로봇의 한계를 극복하고 자연어 기반의 직관적인 인터페이스와 LLM 의 추론 능력을 결합한 새로운 HRC 패러다임을 제시했습니다.
결론: CoViLLM 은 기존 지식 베이스에 없는 구성 요소와 순서를 가진 새로운 제품도 성공적으로 조립할 수 있음을 입증했습니다.
향후 과제: 실제 제조 현장으로의 배포를 목표로 하며, 더 복잡한 제품 구조와 긴 조립 순서에 대한 확장성 (Scalability) 과 강건성 (Robustness) 을 검증하는 연구가 필요하다고 결론지었습니다.

이 논문은 인공지능 (LLM) 과 로봇 공학의 융합을 통해 제조 시스템의 유연성과 적응성을 획기적으로 향상시킬 수 있음을 보여주는 중요한 사례입니다.