Lang2Lift: A Language-Guided Autonomous Forklift System for Outdoor Industrial Pallet Handling

이 논문은 비정형적인 야외 환경에서 자연어 명령을 통해 목표 팔레트를 식별하고 6D 포즈를 추정하여 자율 포크리프트가 팔레트 적재 작업을 수행할 수 있도록 하는 'Lang2Lift' 시스템을 제안하고 실증합니다.

Huy Hoang Nguyen, Johannes Huemer, Markus Murschitz, Tobias Glueck, Minh Nhat Vu, Andreas Kugi

게시일 2026-02-26
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚜 "Lang2Lift": 말로 지시하는 똑똑한 지게차의 이야기

이 논문은 **"말만 하면 알아서 물건을 들어주는 지게차"**를 개발한 연구입니다. 기존의 지게차는 정해진 길만 따라가거나 미리 프로그래밍된 물건만 들어올릴 수 있었지만, 이 새로운 시스템은 사람이 **"그 옆에 있는 시멘트 블록이 실린 팔레트 들어와"**라고 말하면, 그 말대로 찾아서 들어올립니다.

이 기술을 쉽게 이해할 수 있도록 몇 가지 비유로 설명해 드릴게요.


1. 문제 상황: "눈이 먼" 지게차와 "혼란스러운" 현장

기존의 자동화 지게차는 매우 똑똑하지만 매우 고집 센 로봇이라고 생각하세요.

  • 기존 방식: "A 구역의 1 번 팔레트를 들어라"라고 미리 정해져 있어야 합니다. 만약 팔레트가 조금이라도 비틀어져 있거나, 날씨 때문에 눈이 오거나, 주변에 다른 물건들이 쌓여 있으면 지게차는 "무엇이 팔레트인지 모르겠다"며 멈춰 서버립니다.
  • 현실: 건설 현장이나 물류 창고는 날씨도 변하고, 물건도 제멋대로 쌓여 있는 혼란스러운 곳입니다. 이런 곳에서 지게차가 일하려면 사람이 직접 조종해야 했습니다.

2. 해결책: Lang2Lift (Lang2Lift = 언어 + 들어올리기)

연구팀은 이 지게차에게 **새로운 '눈'과 '귀'**를 달아주었습니다.

🧠 귀: "자연어 이해" (사람의 말을 알아듣기)

지금은 지게차에게 **"그 옆에 있는 빨간 팔레트"**나 **"트럭 뒤에 있는 시멘트 더미"**라고 말하면 됩니다.

  • 비유: 마치 유능한 비서가 있습니다. 사장님이 "저기 있는 빨간 상자를 가져와"라고 말하면, 비서는 그 말의 뉘앙스를 파악해 정확한 물건을 찾아냅니다.
  • 기술: 'Florence-2'라는 거대 인공지능 모델을 써서, 사람의 말과 카메라 이미지를 연결합니다.

👁️ 눈: "정교한 분해" (물체의 경계를 정확히 보기)

말만 듣고는 부족합니다. 정확히 어디를 집어야 할지 알아야 하죠.

  • 비유: 비서가 물건을 찾았으면, 이제 정밀한 현미경을 켭니다. 'SAM-2'라는 도구를 써서 팔레트의 가장자리를 픽셀 단위로 정확히 잘라냅니다.
  • 효과: 눈이 어둡거나, 눈이 쌓여 있거나, 다른 물건에 가려져 있어도 "아, 이 부분이 팔레트구나!"라고 정확히 구분해냅니다.

📐 손: "정밀한 포지셔닝" (집게를 정확히 끼우기)

물건을 찾았다고 해서 바로 들면 안 됩니다. 지게차의 집게 (포크) 가 팔레트 구멍에 정확히 들어가야 하죠.

  • 비유: 마술사의 손처럼 정확합니다. 3 차원 공간에서 팔레트의 위치를 계산하고, 지게차의 집게가 들어갈 최적의 각도와 높이를 계산합니다.
  • 특이점: 팔레트는 대칭이라서 앞뒤가 헷갈릴 수 있는데, 이 시스템은 "집게가 들어갈 방향"을 자동으로 판단해서 180 도 틀어지지 않게 보정해 줍니다.

3. 실제 실험: "현장 테스트"

연구팀은 오스트리아의 야외 현장에서 이 지게차를 시험했습니다.

  • 상황: 햇빛이 강한 날, 눈이 오는 날, 어두운 날, 물건이 빽빽하게 쌓인 곳 등 다양한 조건에서 테스트했습니다.
  • 결과:
    • 말로 지시: "왼쪽의 시멘트 블록 팔레트"라고 말하면 성공적으로 찾아냈습니다.
    • 정확도: 팔레트 모양을 정확히 그리는 능력 (IoU) 이 평균 0.59 로, 특히 어두운 곳에서는 0.80 이상으로 매우 잘 작동했습니다.
    • 속도: 말로 지시하고 팔레트를 찾아 집게를 끼우는 데 약 1.5 초 정도 걸렸습니다. 지게차가 천천히 움직이는 현장에서는 충분히 빠른 속도입니다.

4. 한계점: 아직 완벽하지는 않아요

물론 아직 해결해야 할 문제도 있습니다.

  • 말의 애매함: "그것"이나 "저것"처럼 너무 모호하게 말하면 헷갈릴 수 있습니다. (비유: "저기 있는 것"이라고 하면 여러 개가 있을 때 혼란이 옵니다.)
  • 완전한 가림: 팔레트가 완전히 다른 물건 뒤에 가려져 있으면 찾을 수 없습니다.
  • 속도: 인공지능이 무거운 작업을 하느라, 아주 빠른 속도로 움직이는 상황에는 아직 약합니다.

5. 결론: 왜 이 연구가 중요할까?

이 연구는 **"로봇에게 코딩을 가르치는 게 아니라, 사람처럼 대화하게 만드는 것"**의 가능성을 보여줍니다.

  • 미래: 앞으로 건설 현장이나 물류 센터에서 숙련된 운전자가 부족해지더라도, 일반 직원이나 관리자도 **"저기 있는 거 들어와"**라고 말만 하면 지게차가 알아서 일해줄 수 있게 됩니다.
  • 핵심: 새로운 알고리즘을 invention(발명) 하는 것보다, 이미 있는 강력한 인공지능 (Foundation Model) 을 실제 현장에 어떻게 잘 적용할지에 초점을 맞췄다는 점이 가장 큰 의의입니다.

한 줄 요약:

"Lang2Lift는 지게차에게 '눈'과 '귀'를 달아주어, 사람이 말로 지시하면 복잡한 현장에서도 알아서 물건을 찾아 들어올리는 똑똑한 조수입니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →