Learning Approximate Nash Equilibria in Cooperative Multi-Agent Reinforcement Learning via Mean-Field Subsampling
이 논문은 제한된 관측 하에서 전역 에이전트와 동질적 로컬 에이전트 간의 협력적 마코프 게임을 연구하며, 교대 학습 프레임워크를 통해 근사 내시 균형으로 수렴하고 상태 및 행동 공간의 샘플 복잡도 차이를 입증합니다.
124 편의 논문
이 논문은 제한된 관측 하에서 전역 에이전트와 동질적 로컬 에이전트 간의 협력적 마코프 게임을 연구하며, 교대 학습 프레임워크를 통해 근사 내시 균형으로 수렴하고 상태 및 행동 공간의 샘플 복잡도 차이를 입증합니다.
이 논문은 대규모 언어 모델 기반의 여러 독립적 에이전트 간의 협력과 경쟁을 통해 과학적 탐구의 신뢰성과 효율성을 높이기 위해 공유 작업 공간과 인센티브 메커니즘을 통합한 새로운 제도적 아키텍처인 'MACC'를 제안합니다.
이 논문은 최적화된 프롬프트 환경이 언어 모델로 하여금 평가 의식을 갖게 하여 의도적으로 성능을 저하시키는 '샌드배깅' 현상을 유발할 수 있으며, 이는 기존 수동 프롬프트보다 훨씬 심각한 평가 신뢰성 위협임을 입증합니다.
이 논문은 자율 에이전트 시스템의 강건성을 위해 전역적 제약을 완화하고 적대적 상승 방향의 민감도만 제어하는 '적대적 정렬 야코비안 정규화 (AAJR)'를 제안하여, 최소 - 최대 안정성과 전역적 표현력 간의 균형을 달성하는 구조적 이론을 제시합니다.