CoViLLM: An Adaptive Human-Robot Collaborative Assembly Framework Using Large Language Models for Manufacturing

이 논문은 자연어 지시와 LLM 기반의 작업 계획, 객체 인식 기술을 결합하여 기존 규칙 기반의 한계를 극복하고 맞춤형 및 미처 보지 못한 제품 조립을 지원하는 적응형 인간 - 로봇 협업 프레임워크 'CoViLLM'을 제안하고 그 유효성을 검증합니다.

Jiabao Zhao, Jonghan Lim, Hongliang Li, Ilya Kovalenko

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"코비름 (CoViLLM)"**이라는 새로운 시스템을 소개합니다. 이 시스템은 공장에서 로봇과 인간이 손잡고 일하는 방식을 혁신적으로 바꿉니다.

기존의 공장 로봇들은 마치 **"무식한 로봇"**과 같습니다. 미리 입력된 명령만 따를 뿐, 새로운 부품이 나오거나 순서가 바뀌면 당황해서 멈춰버립니다. 하지만 이 논문이 제안하는 코비름은 **"똑똑한 비서"**가 곁에 있는 것과 같습니다.

이 시스템을 이해하기 쉽게 세 가지 핵심 요소로 나누어 설명해 드릴게요.

1. 문제 상황: "예전엔 잘했는데, 갑자기 새 부품이 나오면?"

기존의 공장 로봇은 미리 정해진 레시피 (명령) 대로만 움직입니다.

  • 기존 방식: "빨간 톱니바퀴를 먼저 끼우고, 그다음 파란 핀을 꽂아라"라고 프로그래밍해 두면, 로봇은 그걸만 반복합니다.
  • 문제점: 만약 갑자기 **"새로운 모양의 톱니바퀴"**가 들어오거나, **"순서를 바꿔서 먼저 파란 핀을 꽂아야 한다"**고 하면, 로봇은 "이게 뭐야?", "어디에 두는 거지?"라며 멈춰버립니다. 인간이 직접 로봇을 다시 가르쳐야 하니까 시간이 많이 걸립니다.

2. 해결책: 코비름 (CoViLLM) 의 세 가지 능력

코비름은 로봇에게 세 가지 새로운 능력을 부여합니다.

① "깊이 있는 눈" (Depth Camera Localization)

  • 비유: 로봇은 안경을 쓴 탐정 같습니다.
  • 기능: 로봇은 카메라로 작업대를 비추는데, 단순히 '무엇'인지만 보는 게 아니라 **'얼마나 멀리 있는지, 높이가 얼마나 되는지'**를 정밀하게 측정합니다. 마치 손으로 만져보듯 공간의 깊이를 파악해서 "아, 저기 작은 톱니바퀴가 있구나"라고 위치를 정확히 잡습니다.

② "스마트 비서" (Large Language Model - LLM)

  • 비유: 로봇의 뇌에 유능한 통역사兼 기획자가 들어갔습니다.
  • 기능: 인간이 "저기 오른쪽에 있는 새 부품부터 조립해 줘"라고 말하면, 로봇은 그 말을 듣고 **"아, 오른쪽에 있는 게 새 부품이구나. 그럼 그걸 먼저 잡고, 그다음에 이걸로 이어야지"**라고 스스로 계획을 세웁니다.
  • 중요한 점: 이 '비서'는 새로운 부품 이름도 모를 때, 인간이 "저건 '빅기어'라고 해"라고 알려주면 그 정보를 기억하고 다음부터는 스스로 처리할 수 있습니다.

③ "인간과의 대화" (Human-in-the-loop)

  • 비유: 로봇과 인간은 팀워크가 완벽한 파트너입니다.
  • 기능: 로봇이 "이게 뭘까요?"라고 물으면, 인간이 "저건 '빅핀'이야"라고 말해줍니다. 로봇은 그 말을 듣고 "알겠습니다, 빅핀을 조립하겠습니다"라고 답하며 작업을 이어갑니다. 인간이 로봇을 가르쳐 주는 순간, 로봇은 그 지식을 즉시 활용합니다.

3. 실험 결과: 실제로 잘 작동할까?

연구진은 이 시스템을 테스트하기 위해 세 가지 상황을 만들었습니다.

  1. 기존 제품 (Case 1): 로봇이 이미 아는 제품입니다. 로봇이 혼자서 척척 조립했습니다. (기본 실력 확인)
  2. 주문형 제품 (Case 2): 부품은 알지만, 조립 순서를 바꾼 경우입니다. 인간이 "순서를 바꿔서 이 순서로 해"라고 말하자, 로봇은 순서를 바꿔서 성공적으로 조립했습니다. (유연성 확인)
  3. 새로운 제품 (Case 3): 아예 처음 보는 부품이 포함된 경우입니다. 로봇이 "이게 뭐죠?"라고 묻고, 인간이 "저건 '빅기어'야"라고 알려주자, 로봇은 그 정보를 받아들여 새로운 제품을 성공적으로 조립했습니다. (적응력 확인)

결론: 왜 이것이 중요한가요?

이 논문은 **"로봇이 인간의 말을 듣고, 새로운 것을 배우며, 유연하게 일할 수 있다"**는 것을 증명했습니다.

  • 과거: 로봇은 "미리 정해진 대로만" 일함.
  • 현재 (코비름): 로봇은 "인간의 말대로" 일하고, "새로운 것을 배우며" 일함.

이 기술이 발전하면, 앞으로 우리가 원하는 맞춤형 제품 (예: 나만의 디자인 신발, 특별한 모양의 자동차 부품 등) 을 만들 때, 공장에서 로봇을 다시 가르칠 필요 없이 자연스럽게 대화하며 바로 생산할 수 있게 될 것입니다. 마치 마법처럼 로봇이 인간의 아이디어를 현실로 만들어주는 시대가 오는 것입니다.