16 마리의 초소형 무형 로봇 물고기가 인간의 동맥을 거슬러 헤엄치는 상상을 해 보세요. 하지만 함정이 하나 있습니다. 혈류는 강물처럼 일정하게 흐르지 않습니다. 대신 심장 박동처럼 맥동합니다. 빠르게 전진했다가 느려졌다가 잠시 역류했다가 이 사이클을 끊임없이 반복하죠.

이 논문은 연구자들이 이 작은 로봇들이 혼란스럽고 맥동하는 흐름에 휩쓸리거나 에너지를 낭비하거나 통제 불능으로 덜컹거리지 않고, 그 흐름을 거슬러 헤엄칠 수 있도록 가르친 방법을 설명합니다. 그들은 **다목적 다중 에이전트 강화 학습 (Multi-Objective Multi-Agent Reinforcement Learning)**이라는 "스마트 교사" 시스템을 통해 이를 달성했습니다.

아래는 그들의 여정을 간단한 비유로 풀어낸 내용입니다:

1. 문제: "조개"의 함정

이 로봇들의 미세한 크기에서 물은 꿀처럼 끈적하고 점성이 느껴집니다. 로봇이 "껍질"을 열고 닫는 방식으로 (조개처럼) 헤엄치려 한다면, 물이 앞으로 밀어내는 힘만큼 뒤로 밀어내는 힘도 동일하게 작용하기 때문에 제자리걸음만 하게 됩니다. 이를 "조개 정리 (Scallop Theorem)"라고 합니다.

이동하려면 특정한 방식으로 반복되지 않는 움직임을 하거나 회전해야 합니다. 하지만 강 (혈액) 이 자체가 앞뒤로 밀려오면 올바른 움직임을 찾아내는 것이 매우 어렵습니다. 단순히 상류로 강하게 밀어붙이면 역류가 그들을 벽에 처박을 수 있고, 숨으려 하면 전진하는 흐름이 그들을 결승점을 지나쳐 날려버릴 수 있습니다.

2. 해결책: 세 가지 머리를 가진 코치

연구자들은 로봇들에게 단순히 "상류로 가라!"고 말하지 않았습니다. 대신 서로 종종 충돌하는 세 가지 목표 (목적) 를 가진 코치를 부여했습니다:

목표 A (진전): "결승점에 도달해라!"
목표 B (에너지): "배터리를 낭비하지 마라!"
목표 C (부드러움): "덜컹거리지 말고 우아하게 움직여라."

보통 이 세 가지를 동시에 시도하면 로봇들이 혼란에 빠집니다. 진전을 위해 강하게 밀어붙이면 에너지를 낭비하고 덜컹거리게 됩니다. 부드럽게 움직이면 진전이 부족해질 수 있습니다.

3. 결정적인 비법: "기울기 수술" (PCGrad)

이 논문의 가장 중요한 발견입니다. 연구자들은 특별한 도구인 PCGrad (Projected Conflicting Gradient) 없이는 로봇들의 두뇌가 혼란에 빠진다는 사실을 발견했습니다.

세 명의 운전자가 핸들을 두고 다투는 차를 생각해 보세요:

운전사 A 가 "좌회전 해!"라고 외칩니다 (진전).
운전사 B 가 "우회전 해!"라고 외칩니다 (에너지).
운전사 C 가 "회전하지 마!"라고 외칩니다 (부드러움).

수술이 없다면 차는 빙글빙글 돌거나 멈춰 서게 됩니다. 이 "수술"은 상충되는 지시사항을 받아, 서로 싸우는 부분을 잘라내고 서로 협력하는 부분만 남기는 수학적 트릭입니다. 마치 심판이 "운전사 A, 좌회전 해도 되지만 운전사 B 의 연료 계획을 망치지 않는 선에서만 하라"고 말하는 것과 같습니다.

이 논문은 이 수술이 없다면 로봇들이 완전히 실패한다는 것을 증명합니다. 에너지 효율이 제로로 떨어지고, 여전히 헤엄치려 노력하고 있음에도 불구하고 매끄러운 움직임을 멈추게 됩니다.

4. 로봇들이 배운 것 ("아하!" 순간들)

로봇들에게 어떻게 헤엄칠지 알려주지 않았습니다. 그들은 시행착오를 통해 배웠습니다. 놀랍게도 연구자들이 프로그래밍하지 않은 세 가지 교묘한 전략을 스스로 고안해냈습니다:

"교통 체증" 트릭 (1 단계): 혈류가 쓰나미처럼 고속으로 전진할 때, 로봇들은与之 맞서지 않습니다. 대신 절반은 바닥 벽에 붙어 있고, 나머지 절반은 그 위에 쌓입니다. 그들은 관을 가로지르는 2 층짜리 "댐"을 형성합니다. 이로 인해 그들 바로 옆의 물이 느려져, 흐름이 그들을 날려버리는 것을 막습니다. 그들은 휩쓸리지 않고, 물이 그들을 부드럽게 하류로 밀어내도록 하지만 통제된 방식으로 허용합니다.
"라쳇" 동작 (2 단계): 혈류가 역류 (뒤로 흐름) 할 때, 로봇들은 대형을 깨고 퍼져 나가며 그 역류를 이용합니다. 그들은 역류에 맞서 상류로 헤엄쳐, 실제로 자신들을 목표에 더 가깝게 "라쳇"시킵니다. 마치 등반가가 더 나은 그립을 얻기 위해 조금 미끄러진 뒤 더 높이 오르는 것과 같습니다.
"혼자 달리기" (3 단계): 결승점에 가까워지면 팀으로 행동하는 것을 멈춥니다. 그들은 흩어져 개별적으로 결승점까지 헤엄칩니다. 팀 대형은 강의 위험한 중간 구간을 생존하기 위해만 필요했습니다.

5. 결과

로봇들은 다음을 학습했습니다:

성공적으로 상류로 헤엄침 (진전 점수: 6.5–7.0).
에너지 절약 (효율 점수: 0.63–0.65).
매끄러운 이동 (부드러움 점수: 0.97–0.99).

반면, 단순히 "강하게 밀어붙이는" (무식한 힘으로 밀어붙이는) 방식을 시도한 로봇들은 걸려서 멈추거나, 모든 에너지를 낭비하거나, 벽에 충돌했습니다.

요약

이 논문은 "갈등 해결" 도구 (PCGrad) 가 있는 스마트 학습 시스템을 사용하면, 초소형 로봇 군집이 심장의 맥동하는 혈류를 항해하는 법을 배울 수 있음을 보여줍니다. 그들은 물의 속도를 늦추기 위해 팀처럼 행동했다가, 상류로 올라가기 위해 개인처럼 행동하면서도 에너지를 절약하는 법을 배웠습니다. 핵심 교훈은 로봇에게 서로 다른 목표가 서로 싸우지 않도록 막아주는 특별한 방법 없이는 여러 복잡한 일을 동시에 가르칠 수 없다는 점입니다.

기술 요약: 다목적 다중 에이전트 강화학습을 활용한 동적 유동 내 미세-군집 이동 최적화

문제 정의

생리학적 현실성을 갖춘 시간 의존성 유체 환경에서 미세 로봇 군집을 조정하는 것은 생체의학 및 환경 응용 분야에서 여전히 중요한 과제로 남아 있습니다. 미세 규모에서는 점성력이 관성 효과를 지배하여 상호적인 작동이 무효화됩니다 (퍼셀의 "조개 껍질 정리"). 또한, 맥동성 동맥 혈류나 펌프 유발 파이프라인 사이클과 같은 진동 유동에서 미세 수영체는 순환 영역에 갇히거나 벽면으로 밀려날 수 있는 주기적 전단 구배, 유동 역전, 그리고 과도 경계층에 직면합니다.

기존 제어 패러다임은 종종 모델 예측 제어 (MPC) 를 통한 전역 작동이나 분산형 생체 영감 휴리스틱에 의존합니다. 그러나 이러한 접근법은 고충실도 유체 시뮬레이션의 계산 비용, 진동 유동의 비정상성, 그리고 명시적 에이전트 간 통신 없이 경쟁적 목표 (예: 상류 진행 대 에너지 보존) 를 균형 있게 조정하는 어려움에 직면합니다. 결정적으로, 이전 연구 중에는 이러한 동적 영역에서의 군집 이동을 해결하기 위해 다목적 다중 에이전트 강화학습 (MO-MARL) 과 고충실도 시간 의존성 전산 유체 역학 (CFD) 을 통합한 사례는 없습니다.

방법론

저자들은 고충실도 비압축 나비에 - 스토크스 솔버와 분산형 다중 에이전트 강화학습을 직접 결합한 하이브리드 CFD-MO-MARL 프레임워크를 제안합니다.

물리적 설정 및 시뮬레이션

영역: 혈액 모방 유체 ( $\rho = 1060$ kg/m³, $\mu = 3 \times 10^{-3}$ Pa·s) 로 채워진 2 mm 폭, 100 mm 길이의 2 차원 채널.
유동 프로파일: 수축기 최대 400 mm/s, 초기 이완기 역류 (-15 mm/s), 후기 이완기 전진 유동 (8 mm/s) 을 특징으로 하는 3 상 동맥 파형 (1 Hz 사이클).
군집: 격자에 배치된 16 개의 자기 작동 미세 로봇 ( $r=250$ µm 구형 모델). 이들은 유체역학적 힘, 항력, 내부 추진력 (물리적 자기 작동 한계로 제한됨), 그리고 접촉력에 노출됩니다.
솔버: 시뮬레이션은 균일 카르테시안 격자 ( $\Delta x = 0.1$ mm) 에서 반 라그랑주 이류 방식과 투영 기반 압력 보정을 사용하는 PhiFlow 프레임워크를 활용합니다.

강화학습 프레임워크

제어 문제는 중앙 집중식 훈련, 분산형 실행 (CTDE) 패러다임을 사용하여 근접 정책 최적화 (PPO) 로 구현된 다중 에이전트 다목적 마르코프 결정 과정 (MA-MOMDP) 으로 공식화됩니다.

상태 공간: 각 에이전트는 국소 카르테시안 좌표, 속도 성분, 그리고 원주 주변의 네 가지 압력 샘플을 관측합니다. 크리틱은 모든 에이전트의 결합 상태를 활용합니다.
행동 공간: 각 에이전트는 연속적인 2 차원 추진력 벡터를 출력합니다.
다목적 보상: 시스템은 세 가지 동시 목표를 최적화합니다:
1. 진행: 유동에 대항한 상류 변위.
2. 에너지 효율성: 순간 수행 일과 최대 가능 일의 비율.
3. 부드러움: 작동의 시간적 일관성 (연속 행동 간의 코사인 유사도).
경쟁적 기울기 해결: 목표 간의 구조적 충돌을 해결하기 위해 저자들은 **투사된 경쟁적 기울기 (PCGrad)**를 사용합니다. 이 기법은 경쟁적 기울기 성분을 직교 부분 공간으로 투영하여, 지배적인 진행 목표가 에너지 및 부드러움 목표와 파괴적으로 간섭하는 것을 방지합니다.

주요 기여

CFD-MO-MARL 통합: 본 논문은 미세 군집 제어를 위해 고충실도 시간 의존성 나비에 - 스토크스 솔버와 분산형 다목적 다중 에이전트 RL 을 결합한 최초의 프레임워크를 제시합니다.
기울기 수술의 필요성: 본 연구는 기울기 충돌 해결 (PCGrad) 이 이 분야에서 선택적 개선이 아닌 구조적 요구사항임을 입증합니다. 이를 사용하지 않으면 에너지 효율성과 부드러움 보상이 거의 0 으로 붕괴되며, 진행 보상은 지속적인 불안정성을 보입니다.
창발적 행동 전략: 프레임워크는 보상 함수에 명시적으로 인코딩되지 않은 복잡하고 직관적이지 않은 집단 행동을 발견합니다.
- 유동역학적 스로틀링: 전진 유동 중 채널 최대 유속을 억제하는 2 층 형성.
- 사이클 동기화 래칫: 상류 재배치를 위해 유동 역전을 이용하는 메커니즘.
- 개별화 최종 접근: 에이전트가 성공 경계에 근접함에 따라 독립 항해로 전환.

결과

성능: 수렴된 정책은 진행 보상 6.5–7.0, 에너지 효율성 0.63–0.65, 부드러움 0.97–0.99를 달성합니다. 이는 훈련 내내 음의 에너지 효율성을 보이는 무차별 대입식 기준선 대비 진행 보상에서 8 단위 이상의 개선을 의미합니다.
애블레이션 연구: PCGrad 를 제거하면 10,000 스텝 이내에 에너지 및 부드러움 보상이 즉시 붕괴되고 진행 보상에서 지속적인 대진폭 진동이 발생합니다. 이는 고충실도 유체 환경에서 경쟁적 목표를 조정하기 위해 단순한 기울기 합산이 실패함을 확인시켜 줍니다.
창발적 행동:
- 1 단계 (전진 유동): 군집은 2 층 장애물을 형성하여 국소 유체 속도를 약 700 mm/s 에서 약 400 mm/s 로 감소시켜, 안전한 회랑 내에서 수동 하류 표류를 허용합니다.
- 2 단계 (역류): 군집은 분산하여 하부 벽면 근처에 재고정되어 래칫 역할을 하며 상류로 전진합니다.
- 3 단계 (접근): 에이전트가 목표에 근접함에 따라 집단적 조정은 개별화된 항해로 해체됩니다.

중요성 및 주장

본 논문은 미세 군집 제어를 위한 확장 가능하고 물리적으로 근거 있는 패러다임을 확립한다고 주장합니다. 시간 의존성 유체 - 에이전트 상호작용을 다목적 RL 루프 내에서 직접 포착함으로써, 이 접근법은 물리적 제약 (비압축성, 운동량 보존) 을 존중하면서도 직관적이지 않은 해법을 발견하는 제어 전략 학습 방법을 제공합니다.

저자들은 이 연구가 미세 로봇 군집을 동적, 생리학적, 산업적 환경으로 전환하는 데 있어 중요한 간극을 메운다고 주장합니다. 결과는 대리 모델링 없이 시간 의존성 유체 상호작용을 관리할 수 있음을 시사하며, PDE 역학에 의해 지배되는 제어 영역을 위한 템플릿을 제공합니다. 이러한 발견은 생체의학 항해 (예: 맥동 혈관 내 표적 약물 전달), 환경 모니터링, 산업 미세 유체 공학에 적용 가능하다고 위치지어집니다.

본 연구는 목표가 이질적인 기울기 크기를 가지는 물리적으로 근거 있는 MO-MARL 시스템에서 안정적인 학습을 위해 기울기 충돌 해결이 필수적이며, 발견된 창발적 행동은 결합된 CFD 환경의 물리적 일관성에 의해 주도된 진정한 정책 발견임을 결론지었습니다.

Micro-Swarm Locomotion Optimization in Dynamic Flow using Multi-Objective Multi-Agent Reinforcement Learning