Dual-Agent Multiple-Model Reinforcement Learning for Event-Triggered Human-Robot Co-Adaptation in Decoupled Task Spaces

Each language version is independently generated for its own context, not a direct translation.

이 논문은 재활 로봇과 환자가 서로의 속도와 실수를 이해하며 '팀워크'를 발휘하는 새로운 지능형 제어 시스템을 소개합니다.

기존의 로봇은 환자가 "위로"라고 명령하면 로봇이 기계적으로 움직였는데, 이 과정에서 로봇이 너무 빨리 움직이거나, 환자가 실수할 때 로봇이 당황해서 앞뒤로 떨리는 (흔들리는) 문제가 있었습니다. 이 논문은 그 문제를 해결하기 위해 두 명의 '가상 친구' (에이전트) 가 서로 대화하며 로봇을 조종하는 방식을 제안합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드리겠습니다.

🚗 비유: "운전석에 앉은 환자"와 "조수석의 스마트한 로봇"

이 시스템을 운전하는 환자와 조수석에 앉은 로봇이 함께 차를 몰고 가는 상황으로 상상해 보세요.

1. 역할 분담: "누가 핸들을 잡고 누가 방향을 잡나?"

환자 (운전석): 환자는 복잡한 모든 방향을 다 잡을 필요가 없습니다. 오직 "앞으로 갈지, 뒤로 갈지" 같은 큰 방향 (예: 위로 갈지 아래로 갈지) 만 결정하면 됩니다. 마치 운전자가 핸들을 살짝 돌려 방향을 잡는 것과 같습니다.
로봇 (조수석): 로봇은 환자가 결정하지 않은 나머지 방향 (좌우, 깊이 등) 을 스스로 계산해서 보정해 줍니다. 환자가 조금만 흔들려도 로봇이 바로 잡아주어 차가 직진하게 만듭니다.

2. 문제점: "초록불이 켜지기 전에 차가 멈추지 않는 상황"

기존 로봇은 정해진 시간 (예: 0.1 초마다) 마다 움직임을 계산했습니다. 하지만 로봇이 복잡한 계산을 하느라 시간이 걸리면, 환자는 "이미 도착했어!"라고 생각하는데 로봇은 "아직 안 도착했어!"라고 계속 움직여서 앞뒤로 쉭-쉭-쉭 (떨림) 하는 현상이 생깁니다.

3. 해결책 1: "입장권 (Admission Sphere) 시스템"

이 논문은 "시간"이 아니라 "위치"로 움직임을 결정합니다.

비유: 로봇이 목표 지점에 도달하기 위해 작은 공 (입장권) 을 만듭니다. 로봇이 이 공 안으로 들어오면 비로소 "오, 이제 다음 단계로 가자!"라고 다음 명령을 내립니다.
효과: 로봇이 아직 공 안으로 완전히 들어오지 않았으면, 아무리 시간이 흘러도 멈춰 있습니다. 그래서 불필요한 흔들림 (떨림) 이 사라지고 목표 지점에 부드럽게 안착합니다.

4. 해결책 2: "두 친구의 팀워크 (DAMMRL)"

가장 중요한 부분은 환자와 로봇이 서로의 성격을 파악하는 것입니다.

환자의 선택 (속도 vs 정확도):
- 환자는 "나는 빠르게 가고 싶어 (실수는 좀 할 수 있어)"라고 선택할 수도 있고, "나는 정확하게 가고 싶어 (천천히 해도 좋아)"라고 선택할 수도 있습니다.
- 이는 마치 운전자가 "경쟁하듯 빨리 가자" vs "안전하게 천천히 가자"를 선택하는 것과 같습니다.
로봇의 적응 (DAMMRL):
- 로봇은 환자의 선택을 보고 스스로 걸음을 조절합니다.
- 환자가 "빠르게 가자"고 하면, 로봇은 큰 걸음으로 빠르게 이동하되 약간의 실수는 감수합니다.
- 환자가 "정확하게 가자"고 하면, 로봇은 작은 걸음으로 꼼꼼하게 목표에 다가가며 흔들림을 잡습니다.
- 이 두 친구는 가상 시뮬레이션 (MuJoCo) 에서 수많은 연습을 통해 서로의 성향을 완벽하게 배워, 실제 로봇에 적용합니다.

📊 실험 결과: 무엇이 달라졌나요?

연구팀은 이 시스템을 3 단계로 테스트했습니다.

가상 세계: 로봇과 가상의 환자가 컴퓨터 안에서 연습.
반가상 세계: 실제 사람이 버튼을 누르고, 로봇은 컴퓨터 안에서 움직이는 테스트.
실제 로봇: 실제 6 개의 관절을 가진 로봇을 사용 (아직은 계획 단계).

결과적으로:

기존 방식: 목표 지점 근처에서 로봇이 앞뒤로 떨리며 (떨림) 불안정했습니다.
새로운 방식: 로봇이 환자의 속도에 맞춰 걸음을 조절하고, 목표 지점에 도달하기 전까지 흔들리지 않고 부드럽고 정확하게 멈췄습니다. 특히 환자가 실수를 해도 로봇이 이를 보정해 주어 성공률이 크게 향상되었습니다.

💡 한 줄 요약

"이 로봇은 환자가 '빨리' 갈지 '정확하게' 갈지 선택하면, 로봇이 그 성격을 파악하여 스스로 걸음 크기를 조절하고, 목표 지점에 도착할 때까지 흔들리지 않게 도와주는 똑똑한 파트너입니다."

이 기술은 뇌졸중이나 근손실 환자가 재활 훈련을 할 때, 로봇이 환자를 힘들게 하지 않고 자연스럽게 도와주어 치료 효과를 높이는 데 큰 기여를 할 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 이원 에이전트 다중 모델 강화학습을 활용한 이벤트 기반 인간 - 로봇 공동 적응

이 논문은 6 자유도 (6-DoF) 상지 재활 로봇을 위한 공유 제어 (Shared-control) 재활 정책을 제안합니다. 복잡한 도달 작업을 공간 축 (spatial axes) 으로 분해하여, 환자는 주요 도달 방향을 이진 (binary) 명령으로 제어하고 로봇은 직교하는 방향의 교정 운동을 자율적으로 수행하는 방식을 채택했습니다. 특히, 고정 주파수 제어의 한계를 극복하기 위해 이벤트 기반 진행 전략과 이원 에이전트 다중 모델 강화학습 (DAMMRL) 프레임워크를 도입하여 인간과 로봇의 공동 적응을 최적화했습니다.

1. 문제 정의 (Problem Statement)

재활 로봇 분야에서 기존 기술은 다음과 같은 두 가지 주요 병목 현상에 직면해 있습니다:

의도 해독의 실시간성: 인간의 의도를 정확하면서도 실시간 제어에 적합한 경량으로 해독하는 것.
경로 불안정성 (Waypoint Chatter): 역기구학 (Inverse Kinematics, IK) 실행 시간이 가변적임에도 불구하고 고정 주파수 (fixed-frequency) 로 제어 명령을 업데이트할 때, 목표 지점 근처에서 발생하는 진동 (oscillation) 및 불확실성.

기존의 고정 시간 샘플링 방식은 로봇의 물리적 실행 속도와 제어 주기가 불일치하여 목표 지점 근처에서 오버슈트나 진동을 유발하며, 이는 환자의 편안함과 작업 성공률을 저하시킵니다.

2. 방법론 (Methodology)

제안된 시스템은 축 분해 (Axial Decomposition) 전략과 이벤트 기반 제어, 그리고 DAMMRL 알고리즘을 결합합니다.

가. 시스템 아키텍처 및 역할 분담

작업 공간 분해: 6-DoF 로봇의 작업을 분해된 공간 축으로 나눕니다.
- 환자 (Human Agent, Agent0): 주요 도달 축 (예: 상하 방향) 에 대한 이진 명령 ( $u_h \in \{-1, +1\}$ ) 을 내리고, 다음 단계 목표에 대한 허용 오차 반경 (admission sphere radius, $\epsilon$ ) 을 선택합니다. 이는 사용자의 속도 - 정확도 트레이드오프를 반영합니다.
- 로봇 (Robot Agent, Agent1): 직교하는 축 (좌우, 전후) 의 교정 운동을 자율적으로 수행하고, 3 차원 카르테시안 단계 크기 ( $\delta_x, \delta_y, \delta_z$ ) 를 동적으로 조절합니다.

나. 이벤트 기반 진행 전략 (Event-Driven Progression)

고정 타이머 대신 **허용 구 (Admission Sphere)**를 기반으로 다음 제어 동작을 트리거합니다.

트리거 조건: 로봇의 엔드 이펙터가 현재 하위 목표 (subgoal) 를 중심으로 한 허용 구 ( $\|x - x^{(m)}\| \le \epsilon$ ) 에 진입하고, 에너지 수렴 조건 ( $\dot{V} \le 0$ ) 을 만족할 때만 다음 단계로 진행합니다.
효과: 역기구학 실행 시간의 변동으로 인한 불필요한 명령 업데이트를 방지하여 진동 (chatter) 을 억제합니다.

다. 동역학 일관성 제어 (Dynamics-Consistent Control)

역기구학 (IK): 수치 최적화 기반의 IK 솔버 (ikpy) 를 사용하여 작업 공간의 미세 단계를 관절 공간으로 매핑합니다.
역동역학 (Inverse Dynamics): 관성, 코리올리 힘, 중력을 보상하기 위해 계산된 토크 제어 (Computed Torque Control, CTC) 와 임피던스 형성을 적용하여 부드럽고 안전한 물리적 상호작용을 보장합니다.

라. 이원 에이전트 다중 모델 강화학습 (DAMMRL)

사용자 간 변이성을 처리하기 위해 연속적인 온라인 적응 대신 유한한 다중 모델 집합을 사용합니다.

모델 구조: $M = \{M_{i,j}\}$ $M = {M_{i, j}}$
- $i \in \{1, 2\}$ : 환자의 인지 상태 (선택한 허용 구 크기: $E_{big}$ 는 빠르지만 오류율 높음, $E_{small}$ 은 느리지만 정확함).
- $j \in \{1, \dots, 8\}$ : 로봇의 3 축 단계 크기 조합 (작은 단계 vs 큰 단계).
학습 과정:
1. 가상 (Virtual): MuJoCo 시뮬레이션에서 인간과 로봇 에이전트 모두 시뮬레이션되어 최적의 모델 매칭을 학습.
2. 반가상 (Semi-Virtual): 실제 인간이 압력 센서로 입력하고 가상 로봇이 반응하여 모델 정제.
3. 실제 (Real): 물리적 로봇에 최적화된 모델을 배포 (논문 작성 시점에는 계획 단계).
보상 함수: 추적 오차, 실행 시간, 기계적 노력, 진동 횟수를 패널티로 주고 목표 달성 시 보상을 주어 속도와 정확도의 균형을 찾습니다.

3. 주요 기여 (Key Contributions)

축 분해 역할 할당: 복잡한 의도 해독을 강력한 이진 결정으로 단순화하면서도 사용자가 작업 진행에 대한 주도권 (agency) 을 유지하도록 설계.
이벤트 기반 진행 기준: 고정 주파수 업데이트에서 발생하는 경로 진동 (waypoint chatter) 을 허용 구 (admission sphere) 를 통해 효과적으로 억제.
DQN 기반 DAMMRL 프레임워크: 고정 길이의 카르테시안 미세 단계를 6 관절 궤적으로 매핑하고, 인간의 속도 - 정확도 트레이드오프에 맞춰 로봇의 단계 크기를 이산적으로 최적화.
단계별 공동 적응 파이프라인: MuJoCo 시뮬레이션 $\rightarrow$ 반가상 $\rightarrow$ 실제 하드웨어로 이어지는 원활한 전이 학습 프로세스를 제시하여 하드웨어 튜닝을 간소화.

4. 실험 결과 (Results)

실험은 MuJoCo 시뮬레이션 (S1) 과 반가상 환경 (S2, 실제 인간 참여) 에서 수행되었으며, 다음과 같은 결과를 도출했습니다.

고정 주파수 vs 이벤트 기반 제어:
- 고정 주파수 방식은 목표 지점 근처에서 심각한 진동 (chatter) 을 보였습니다.
- 제안된 이벤트 기반 방식은 공간적 안정성을 크게 향상시키고 진동을 효과적으로 억제하여 더 매끄러운 궤적을 생성했습니다.
DAMMRL 보상 함수의 영향:
- 보상 1 (정확도 중심): 로봇이 매우 작은 단계 크기를 선택하여 최종 위치 오차를 최소화했으나, 실행 시간이 길어졌습니다.
- 보상 2 (속도 - 정확도 균형): 로봇이 인간의 인지 상태 (속도/정확도 선호도) 에 맞춰 단계 크기를 동적으로 조절하여, 진동 없이도 효율적인 작업 수행 시간을 달성했습니다.
반가상 실험: 실제 인간이 압력 센서를 통해 로봇을 제어할 때, 제안된 알고리즘이 목표 지점까지 안정적으로 도달함을 확인했습니다.

5. 의의 및 결론 (Significance & Conclusion)

이 연구는 재활 로봇 분야에서 **인간과 로봇의 상호 적응 (Co-adaptation)**을 새로운 관점에서 접근했습니다.

기술적 의의: 역기구학의 가변 실행 시간으로 인한 제어 불안정성을 해결하기 위해 이벤트 기반 제어와 강화학습을 결합한 혁신적인 아키텍처를 제시했습니다.
임상적 의의: 환자의 인지 부하를 줄이면서도 (이진 명령), 로봇이 자동으로 보정하여 작업 성공률과 안전성을 높입니다.
향후 전망: 현재는 건강한 참가자를 대상으로 한 반가상 실험까지 완료되었으며, 향후 신경학적 장애가 있는 환자 군을 대상으로 한 임상 검증을 통해 실제 재활 현장에서의 적용 가능성을 입증할 예정입니다.

결론적으로, 제안된 이벤트 기반 DAMMRL 접근법은 공간적 정밀도와 시간적 효율성을 동시에 만족시키며, 기존 고정 주파수 공유 제어 방식보다 우수한 성능을 입증했습니다.