Auction-Based RIS Allocation With DRL: Controlling the Cost-Performance Trade-Off

Each language version is independently generated for its own context, not a direct translation.

📡 핵심 비유: "공유 자전거 (RIS) 를 누가 탈까?"

이 연구의 상황을 이렇게 상상해 보세요.

상황: 도시 곳곳에 **공유 자전거 (RIS)**가 있습니다. 이 자전거는 일반 자전거보다 훨씬 빠르게 달릴 수 있어 (통신 속도 향상), 사람들이 타고 싶어 합니다.
문제: 자전거는 많지만, **두 개의 큰 회사 (기지국)**가 있습니다. 두 회사 모두 자사 고객 (사용자) 들이 더 빠르게 이동하게 하려고 이 자전거들을 빌리고 싶어 합니다. 하지만 자전거는 한정되어 있고, 두 회사가 동시에 한 대를 타고 싶다면 어떻게 해야 할까요?
해결책 (경매): 연구진은 "자전거를 가장 비싸게 부르는 회사에게 빌려주자"는 경매 시스템을 제안했습니다.
- 가격이 오를수록 (입찰가가 오를수록) 누가 더 필요로 하는지 파악할 수 있습니다.
- 하지만 여기서 중요한 건, 회사가 돈을 너무 많이 써서 망하면 안 된다는 점입니다.

🤖 핵심 기술: "똑똑한 AI 경매사 (강화학습)"

기존에는 회사가 "자전거가 내 회사 근처에 있으면 무조건 비싸게 부르자"거나 "무조건 많이 부르자" 같은 **단순한 규칙 (휴리스틱)**을 따랐습니다. 하지만 이 방법은 비효율적일 때가 많았습니다.

이 논문은 **AI(강화학습)**를 도입했습니다.

AI 경매사의 역할: 각 회사의 AI 는 과거의 경험을 통해 배웁니다.
- "아, 저 자전거는 비싸지만 내 고객에게 큰 도움이 되겠구나. 비싸게 부르자!"
- "저 자전거는 비싸고 효과도 별로 없는데? 아껴두자."
학습 결과: AI 는 최적의 균형을 찾습니다. "얼마나 돈을 써서 (비용), 얼마나 통신 속도를 높일 수 있을까 (성능)"를 계산하며, 가장 효율적인 입찰 전략을 스스로 터득합니다.

⚖️ 중요한 변수: "공격성 조절 버튼 (β)"

이 연구에서 가장 재미있는 부분은 **β(베타)**라는 조절 장치를 만들었다는 점입니다.

β가 작을 때 (공격적 모드): AI 는 "무조건 많이 얻어내자!"라고 생각합니다. 자전거를 많이 빌리지만, 그 대가로 돈을 많이 쓰게 됩니다. 속도는 매우 빠르지만 비용이 많이 듭니다.
β가 클 때 (수비적 모드): AI 는 "돈을 아껴야 해!"라고 생각합니다. 정말 필요한 자전거만 골라서 빌립니다. 비용은 적게 들지만, 속도는 조금 떨어질 수 있습니다.

즉, 이 버튼을 조절하면 회사가 "속도 우선"인지 "비용 절감 우선"인지 쉽게 바꿀 수 있다는 것이 이 논문의 핵심 메시지입니다.

📊 연구 결과: 무엇이 좋았나요?

RIS 는 필수입니다: 자전거 (RIS) 가 없으면 통신 속도가 매우 느립니다.
AI 가 이겼습니다: 단순한 규칙을 따르는 회사보다, AI 가 운영하는 회사가 더 적은 돈으로 더 빠른 속도를 달성했습니다.
유연한 선택: 예산이 부족하면 β를 높여 아끼고, 예산이 넉넉하면 β를 낮춰 속도를 극대화할 수 있습니다.

💡 한 줄 요약

"제한된 통신 자원 (RIS) 을 두고 경쟁하는 통신사들이, AI 를 통해 '얼마나 쓸지'를 스스로 배워가게 함으로써, 최소한의 비용으로 최대의 통신 속도를 얻는 방법을 찾았습니다."

이 기술은 앞으로 우리가 6G 를 사용할 때, 더 빠르고 저렴한 통신 서비스를 받는 데 큰 도움을 줄 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 6G 및 차세대 무선 네트워크에서 스펙트럼 및 에너지 효율성을 향상시키기 위해 재구성 가능 지능형 표면 (RIS) 이 핵심 기술로 부상하고 있습니다. RIS 는 전파 환경을 프로그래밍하여 반사함으로써 커버리지를 확장하고 간섭을 억제합니다.
문제: 실제 네트워크 토폴로지, 특히 셀 경계 (Cell Edge) 영역에서는 여러 기지국 (BS) 이 동일한 RIS 를 필요로 하는 경쟁 상황이 발생합니다.
- RIS 는 독립적인 운영자에 의해 제공되며, 영구 할당이 아닌 동적 임대 형태로 운영되어야 합니다.
- 여러 기지국이 동일한 RIS 에 접근하려 할 때, 공정하고 효율적인 할당 메커니즘이 필요합니다.
- 기존의 조합 최적화 (Combinatorial Optimization) 방식은 계산 복잡도가 너무 높아 확장성이 떨어집니다.
목표: 기지국 간의 경쟁을 해결하고, 비용 (입찰 가격) 과 성능 (스펙트럼 효율) 사이의 최적 균형을 찾는 할당 메커니즘을 개발하는 것.

2. 제안된 방법론 (Methodology)

가. 시스템 모델 및 채널 가정

환경: 다중 셀 환경에서 셀 경계에 클러스터링된 사용자 (UE) 와 RIS 를 가정합니다.
채널 모델:
- 직접 링크 (Direct Link): 기지국과 사용자 간 (NLOS, 강한 그림자 효과).
- RIS 보조 링크: 기지국-RIS(LOS 가정), RIS-사용자 (Rician 채널).
- RIS 위상 제어: 기지국이 할당받은 RIS 에 대해 위상 정렬 (Phase Alignment) 을 수행하여 신호를 강화합니다. 할당되지 않은 RIS 는 무작위 위상으로 간주됩니다.
SINR 추정: 완벽한 채널 상태 정보 (CSI) 가 입찰 전에 존재하지 않으므로, 거시적 채널 파라미터 (Macroscopic Channel Parameters) 를 기반으로 기대값을 이용한 SINR 및 합계율 (Sum-rate) 을 추정합니다.

나. 할당 메커니즘: 동시 상승 경매 (Simultaneously Ascending Auction)

방식: "일본식 (Japanese)" 전진 경매 방식을 적용합니다.
- 경매자가 각 RIS 의 가격을 일정 금액 ( $\Delta p$ ) 씩 인상합니다.
- 기지국들은 현재 가격에 대한 입찰 의지 (0 또는 1) 를 나타내는 이진 벡터를 제출합니다.
- 한 개의 RIS 에 대해 한 명만 입찰하면 할당되고, 여러 명이 입찰하면 다음 라운드로 넘어갑니다.
- 활동 규칙 (Activity Rule) 을 적용하여 이전 라운드에 입찰하지 않은 기지국은 다시 참여할 수 없게 합니다.

다. 입찰 전략: 심층 강화 학습 (DRL)

기존 방식 (Heuristic):
- Greedy: 즉시 추정된 유틸리티 (성능 향상분) 가 높은 RIS 에 예산 범위 내에서 입찰.
- Distance-based: 기지국과 RIS 간의 물리적 거리에 기반한 단순 입찰.
제안 방식 (DRL):
- 에이전트: 각 기지국이 독립적인 DRL 에이전트 (PPO 알고리즘 사용) 로 작동합니다.
- 상태 (State): 현재 가격, 남은 예산, 각 RIS 의 추정된 한계 가치 (Marginal Value).
- 행동 (Action): 현재 가격에서 각 RIS 에 대해 입찰할지 (1) 말지 (0) 결정하는 이진 벡터.
- 보상 (Reward):
  1. 가치 (R1): 입찰한 RIS 들의 추정 가치 합계.
  2. 비용 (R2): 입찰 비용 (가격 $\times$ 입찰 수) 에 대한 패널티.
  3. 초과 지출 패널티 (R3): 예산을 초과할 경우 가중치가 큰 패널티.
- 특징: 입찰 결과 (할당 여부) 가 결정되기 전에 즉각적인 피드백을 받아 학습 효율성을 높였습니다.

3. 주요 기여 (Key Contributions)

경매 기반 RIS 할당 프레임워크: 독립 운영자가 제공하는 RIS 를 기지국 간 경쟁을 통해 동적으로 할당하는 저복잡도 확장 가능한 메커니즘을 제안했습니다.
DRL 기반 적응형 입찰 전략: 기지국들이 환경 변화에 적응하여 장기적인 보상 (비용 대비 성능 최적화) 을 극대화하도록 학습시키는 DRL 에이전트를 통합했습니다.
트레이드오프 제어 파라미터 ( $\beta$ ): 입찰 강도 (Bid Intensity) 를 조절하는 파라미터를 도입하여, 네트워크 운영자가 성능 (스펙트럼 효율) 과 지출 (비용) 사이의 균형을 유연하게 조절할 수 있게 했습니다.
거시적 추정 기반의 실용성: 실시간 CSI 없이도 거시적 채널 정보를 통해 유틸리티를 추정하여, 입찰 과정에서의 계산 부하를 줄였습니다.

4. 실험 결과 (Results)

시뮬레이션 환경: 2 개의 기지국, 20 명의 사용자, 10 개의 RIS 가 셀 경계에 클러스터링된 환경.
SINR 추정 정확도: 안테나 수 ( $M_{BS}$ ) 가 증가할수록 거시적 SINR 추정 오차가 감소하여, 대규모 안테나 배열에서 추정 기법의 신뢰성이 입증되었습니다.
성능 비교 (RL vs Heuristic):
- RL 기반 전략은 휴리스틱 (Greedy, 거리 기반) 전략보다 더 낮은 비용으로 더 높은 합계율 (Sum Rate) 을 달성했습니다.
- 휴리스틱은 단기적인 가치에 집중하여 비효율적으로 입찰하는 경향이 있었으나, RL 에이전트는 고가치 RIS 를 선별적으로 획득하는 전략을 학습했습니다.
- RIS 가 없는 경우보다 RIS 할당이 네트워크 성능을 획기적으로 향상시켰습니다.
$\beta$ 파라미터의 영향:
- 높은 $\beta$ : 보수적인 입찰 $\rightarrow$ 비용 감소, 할당된 RIS 수 감소, 평균 입찰 가치 증가 (고품질 RIS 만 선별).
- 낮은 $\beta$ : 공격적인 입찰 $\rightarrow$ 비용 증가, 더 많은 RIS 할당, 성능은 높지만 비용 효율성은 낮아짐.
- 이를 통해 운영자는 예산 제약과 성능 요구사항에 따라 $\beta$ 를 조절하여 최적 운영점을 찾을 수 있습니다.

5. 의의 및 결론 (Significance)

효율적 자원 관리: 차세대 네트워크에서 희소 자원인 RIS 를 시장 메커니즘 (경매) 과 인공지능 (DRL) 을 결합하여 효율적이고 공정하게 분배하는 새로운 패러다임을 제시했습니다.
실용적 적용 가능성: 복잡한 조합 최적화 문제 대신 저복잡도 경매와 학습된 에이전트를 사용하여 실제 네트워크에 적용 가능한 확장성을 입증했습니다.
유연한 운영: 비용과 성능 사이의 트레이드오프를 제어 가능한 파라미터로 제공함으로써, 다양한 네트워크 운영 시나리오에 맞춰 유연하게 대응할 수 있는 기반을 마련했습니다.

이 연구는 6G 네트워크에서 RIS 의 실용적인 배포 및 운영을 위한 핵심 기술로서, 경매 이론과 강화 학습의 융합이 자원 할당 문제를 해결하는 강력한 접근법임을 보여줍니다.