Multi-Objective Reinforcement Learning for Large-Scale Tote Allocation in Human-Robot Collaborative Fulfillment Centers

Each language version is independently generated for its own context, not a direct translation.

🍳 거대한 주방의 문제: "누가 무엇을 해야 할까?"

상상해 보세요. 거대한 주방이 있어요.

사람 요리사 (Human): 손재주가 좋고, 모양이 기이하거나 깨지기 쉬운 재료를 다룰 수 있지만, 피곤해지고 속도가 느릴 수 있어요.
로봇 요리사 (Robot): 똑같은 일을 빠르고 정확하게 반복할 수 있지만, 모양이 이상하거나 깨지기 쉬운 재료는 다룰 수 없어요.

여기서 중요한 건 **'상자 (Tote)'**예요. 재료가 들어있는 상자가 많을수록 창고 공간이 부족해지죠. 그래서 빈 상자를 만들고, 재료를 다른 상자로 옮겨서 공간을 확보하는 '정리 (Consolidation)' 작업이 필요합니다.

핵심 문제는 이거예요:
"이 재료를 사람 요리사가 옮겨야 할까, 로봇이 옮겨야 할까? 그리고 어느 상자로 옮겨야 할까?"

이때 고려해야 할 것들이 너무 많아요.

속도: 최대한 빨리 처리해야 해요.
공간: 창고 공간이 꽉 차면 안 되죠.
균형: 사람과 로봇의 일거리가 한쪽으로 치우치지 않게 해야 해요.
규칙: 로봇은 깨지기 쉬운 물건을 못 다룬다는 제약이 있죠.

이 모든 것을 동시에 만족시키면서 최적의 결정을 내리는 건, 인간이 머리로 계산하기엔 너무 복잡합니다. 그래서 연구자들은 **AI(강화학습)**를 시켰어요.

🎮 AI 의 학습 방법: "심판과 선수의 게임"

기존의 AI 는 보통 "이것과 저것을 합쳐서 점수를 내라"라고 가르쳤어요. 예를 들어 "속도 70 점, 공간 30 점"처럼 미리 정해진 비율로 점수를 매기는 거죠. 하지만 현실에서는 상황마다 중요도가 달라요. (오늘은 속도가 중요하고, 내일은 공간이 중요할 수도 있죠.)

이 논문은 아주 영리한 방법을 썼어요. 두 명의 캐릭터가 서로 게임을 하는 방식입니다.

선수 (Learner, AI): "어떻게 하면 가장 많이 처리할 수 있을까?"라고 고민하며 일을 배분합니다. (목표: 속도 극대화)
심판 (Regulator, 규칙 관리자): "너는 로봇이 너무 많이 일했어!" 혹은 "사람이 너무 힘들게 일했네!"라고 지적하며 **페널티 (규칙 위반 점수)**를 매깁니다. (목표: 규칙 준수)

게임의 흐름:

선수가 "이번엔 로봇에게 많이 시켜볼까?"라고 시도하면, 심판이 "아니야, 로봇이 과부하 걸렸어!"라고 지적하며 페널티를 줍니다.
다음 라운드에서 선수는 심판의 지적을 듣고 "아, 그럼 사람도 좀 시켜야겠다"라고 전략을 바꿉니다.
이 과정이 수천 번 반복되면서, 선수는 "어떤 상황에서는 로봇을 쓰고, 어떤 상황에서는 사람을 써야 가장 효율적이면서 규칙도 지키는지"를 스스로 터득하게 됩니다.

이걸 '최소 - 최대 (Minimax)' 전략이라고 해요. 즉, "최악의 상황 (규칙 위반) 을 최소화하면서, 최고의 성과 (속도) 를 내는 방법"을 찾는 거죠.

🎁 이 방법의 놀라운 점: "하나의 정답"을 찾아냈다

이론적으로 이 게임은 "평균적으로" 규칙을 지키는 방법을 찾습니다. 마치 "오늘은 로봇이 100 개, 내일은 사람이 100 개"를 번갈아 하면 평균은 50:50 이 되니까 괜찮다고 생각하는 거죠.

하지만 연구자들은 여기서 멈추지 않았어요. 그들은 **"평균이 아니라, 딱 한 번의 결정 (한 번의 플레이) 에서도 모든 규칙을 지키는 해결책"**을 찾아냈습니다.

비유: 평균적으로 50:50 으로 일하는 게 아니라, "지금 이 순간, 이 재료를 로봇이 처리해도 안전하고, 속도도 빠르고, 공간도 확보되는 완벽한 한 가지 방법"을 찾아낸 거예요.

🚀 결론: 왜 이것이 중요한가요?

이 연구는 거대한 물류 센터에서 사람과 로봇이 서로의 장점을 살려서 일할 수 있는 지능적인 시스템을 만들었습니다.

기존 방식: "무조건 로봇이 빨리 하라" → 로봇이 과부하 걸리고 물건이 깨짐.
이 연구의 방식: "상황을 봐서 사람과 로봇이 적절히 나누어 하라" → 속도도 빠르고, 규칙도 지키고, 공간도 효율적으로 사용됨.

결국 이 기술은 더 빠르고, 더 안전하며, 더 똑똑한 물류 시스템을 가능하게 하여, 우리가 주문한 택배가 더 빨리, 더 안전하게 도착할 수 있게 도와줍니다.

한 줄 요약:

"사람과 로봇이 서로 싸우지 않고, AI 심판의 도움을 받아 **'최고의 팀워크'**를 발휘하도록 가르친 지능형 물류 시스템 개발!"

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

이 논문은 아마존과 같은 대규모 인간 - 로봇 협업 풀필먼트 센터에서 발생하는 토트 (Tote) 통합 및 할당 문제를 다룹니다.

배경: 현대 물류 센터는 '세쿼이아 (Sequoia)'와 같은 시스템을 통해 인간과 로봇이 협력하여 재고를 관리합니다. 효율성을 높이기 위해 '통합 (Consolidation)' 프로세스가 필수적입니다. 이는 부분적으로 채워진 소스 (Source) 토트에서 물건을 꺼내 목적지 (Destination) 토트로 옮겨 빈 공간을 확보하고 재고 활용도를 높이는 작업입니다.
핵심 과제:
- 이질적인 자원 관리: 인간 작업자는 다양한 물건을 처리할 수 있지만 다른 워크플로우의 용량을 소모하고, 로봇은 일관성은 높지만 특정 물품 (변형 가능하거나 반사성 있는 제품 등) 처리에 제한이 있습니다.
- 상충되는 목표 (Multi-Objective): 처리 속도 (Throughput/ETPH), 공간 활용도, 재고 토트 유형의 균형, 그리고 인간/로봇 스테이션의 용량 제약 등을 동시에 만족시켜야 합니다.
- 기존 방법의 한계: 단일 목적 함수로 가중치를 고정하여 최적화하는 방식 (Scalarization) 은 환경의 우선순위 변화에 민감하며, 특정 지표 최적화를 위해 다른 지표가 희생되는 비최적 결과를 초래할 수 있습니다.

2. 방법론 (Methodology)

저자들은 이 문제를 제약 조건이 있는 다목적 강화학습 (Constrained Multi-Objective RL, MORL) 문제로 공식화하고, 최적 응답 (Best-Response) 과 후회 없음 (No-Regret) 동역학을 기반으로 한 게임 이론적 접근법을 사용합니다.

2.1. 문제 공식화 (MDP 및 제약 조건)

MDP 모델: 상태 공간에는 토트 수, 빈 토트 수 (ETPH), 인간/로봇 스테이션의 대기열 길이, 토트 크기 분포 등이 포함됩니다. 행동은 특정 토트를 '무시', '인간 스테이션 할당', '로봇 스테이션 할당' 등으로 결정하는 것입니다.
목표 함수:
- 주 목적: 처리 효율성 (ETPH) 극대화.
- 제약 조건: 대형 토트 수의 상한, 소스/목적지 토트 비율 (S/D ratio) 균형, 인간 및 로봇 스테이션의 대기열 용량 초과 방지 등.
라그랑주 형식화: 제약 조건을 라그랑주 승수 ( $\lambda$ $λ$ ) 를 통해 목적 함수에 통합하여 **제로섬 게임 (Zero-Sum Game)**으로 변환합니다.
- 학습자 (Learner): 라그랑주 함수를 최대화하는 정책 분포를 찾음 (처리량 극대화).
- 규제자 (Regulator): 라그랑주 함수를 최소화하는 승수 ( $\lambda$ ) 를 찾음 (제약 조건 위반 최소화).

2.2. 알고리즘: 반복 게임 (Repeated Game)

이론적 기반은 **Freund & Schapire (1996)**의 결과와 **Eaton et al. (2025)**의 확장된 프레임워크에 기반합니다.

학습자 (Learner): 현재 규제자가 설정한 가중치 ( $\lambda_t$ ) 하에서 단일 목적 강화학습 (DQN 등) 을 수행하여 최적 응답 (Best-Response) 정책을 학습합니다.
규제자 (Regulator): 학습된 정책이 제약 조건을 얼마나 위반하는지 (Slack) 평가하고, **온라인 경사 하강법 (Online Gradient Descent, OGD)**을 사용하여 라그랑주 승수 ( $\lambda_t$ ) 를 업데이트합니다. 이는 '후회 없음 (No-Regret)' 알고리즘입니다.
수렴: 이 과정을 $T$ 번 반복한 후, 학습된 정책들의 시간 평균 (Time-averaged) 분포를 최종 정책으로 반환합니다. 이론적으로 이 평균 정책은 게임의 미니맥스 (Minimax) 균형에 근접합니다.

2.3. 오류 상쇄 (Error Cancellation) 문제 해결

이론적으로 시간 평균 정책은 제약 조건을 만족하지만, 이를 구성하는 개별 정책들은 제약 위반을 상쇄하며 평균을 맞출 수 있습니다 (오류 상쇄 현상).

해결책: 저자들은 이론적 프레임워크를 확장하여, 시간 평균 분포에서 **단일 반복체 (Single Iterate)**를 확률적으로 추출할 수 있음을 증명했습니다. 이 단일 정책은 라그랑주 값이 게임의 미니맥스 값에 근접하면서도 모든 제약 조건을 동시에 만족할 가능성이 높습니다.

3. 주요 기여 (Key Contributions)

실제 적용을 위한 새로운 MORL 공식화: 인간과 로봇의 이질적인 능력을 명시적으로 모델링한 대규모 토트 통합 문제에 MORL 을 적용했습니다.
이론적 프레임워크 정립: 다목적 문제를 제로섬 라그랑주 게임으로 재구성하고, 시간 평균된 근사 미니맥스 혼합에서 **단일 반복체 (Single Iterate)**를 추출하여 게임의 미니맥스 값에 가까운 라그랑주 값을 갖는다는 것을 증명했습니다. 이는 기존에 시간 평균 정책만 보장되던 한계를 극복합니다.
실증적 성능 입증: 현실적인 물류 시뮬레이터에서 제안한 방법이 베이스라인 (무작위, 제약 없는 최적화) 대비 모든 KPI(처리량, 제약 조건 준수 등) 에서 우수한 성능을 보임을 확인했습니다.

4. 실험 결과 (Results)

시뮬레이션 환경: 대규모 인간 - 로봇 협업 물류 센터를 모사한 이벤트 기반 시뮬레이터를 사용했습니다.
단일 목적 vs 다목적: 단일 목적 (ETPH 만 최적화) 학습은 처리량은 높지만 용량 제약 위반이 심각했습니다. 반면, MORL 접근법은 처리량과 제약 조건 사이의 균형을 잘 유지했습니다.
제약 조건 준수:
- 규제자의 라그랑주 승수 ( $\lambda$ ) 는 제약 조건 위반 시 증가하고 준수 시 감소하며 진동하는 모습을 보였습니다.
- 시간 평균 정책: 이론적 보장대로 모든 제약 조건을 만족하는 방향으로 수렴했습니다.
- 단일 정책 추출: 흥미롭게도, 시간 평균 분포가 아닌 **학습 과정 중 특정 라운드에서 학습된 단일 정책 (Stationary Policy)**조차도 모든 제약 조건을 동시에 만족하는 경우가 빈번하게 관찰되었습니다 (Table 1 참조).
성능 비교:
- MORL 단일 정책: 처리량 (ETPH) 은 제약 없는 정책보다 낮지만 (20.52 vs 61.81), 모든 제약 조건 (인간/로봇 용량, S/D 비율 등) 을 만족하며 (Slack > 0), 무작위 정책 (9.19) 보다 훨씬 높은 처리량을 달성했습니다.
- 제약 없는 정책: 처리량은 가장 높았으나 인간 스테이션 용량을 심각하게 초과하여 실제 운영에 불가능했습니다.

5. 의의 및 결론 (Significance & Conclusion)

산업적 적용 가능성: 복잡한 제약 조건과 상충되는 목표를 가진 대규모 산업 시스템 (물류, 제조 등) 에서 강화학습의 실용성을 입증했습니다.
이론과 실전의 연결: 게임 이론적 미니맥스 해법과 실제 RL 알고리즘 (DQN) 을 결합하여, 이론적 보장이 있는 단일 정책을 효율적으로 학습할 수 있는 방법을 제시했습니다.
미래 방향: 상태/행동 공간의 추상화 개선, 초기 정책 학습을 통한 수렴 속도 향상, 인간 - 로봇 간의 전략적 상호작용 모델링 등을 향후 연구 과제로 제안했습니다.

결론적으로, 이 연구는 **다목적 강화학습 (MORL)**이 단순한 이론적 개념을 넘어, 인간과 로봇이 공존하는 복잡한 물류 환경에서 실제 운영 제약 조건을 준수하면서도 효율성을 극대화하는 의사결정 시스템을 구축하는 데 유효하고 강력한 도구임을 입증했습니다.

Multi-Objective Reinforcement Learning for Large-Scale Tote Allocation in Human-Robot Collaborative Fulfillment Centers

🍳 거대한 주방의 문제: "누가 무엇을 해야 할까?"

🎮 AI 의 학습 방법: "심판과 선수의 게임"

🎁 이 방법의 놀라운 점: "하나의 정답"을 찾아냈다

🚀 결론: 왜 이것이 중요한가요?

1. 문제 정의 (Problem Definition)

2. 방법론 (Methodology)

2.1. 문제 공식화 (MDP 및 제약 조건)

2.2. 알고리즘: 반복 게임 (Repeated Game)

2.3. 오류 상쇄 (Error Cancellation) 문제 해결

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank