iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics
이 논문은 단일 정보 출처가 아닌 다중 소스의 증거를 통합하고 종합하는 고차원적인 정보 탐색 능력을 평가하기 위해, 실제 사용자 의도와 현실적 관심사를 반영한 동적 ODQA 벤치마크인 'iAgentBench'를 제안합니다.
123 편의 논문
이 논문은 단일 정보 출처가 아닌 다중 소스의 증거를 통합하고 종합하는 고차원적인 정보 탐색 능력을 평가하기 위해, 실제 사용자 의도와 현실적 관심사를 반영한 동적 ODQA 벤치마크인 'iAgentBench'를 제안합니다.
본 논문은 AI 에이전트의 수명이 길어지고 모델이 교체되더라도 정체성이 유지되어야 한다는 전제하에, 기억을 단순한 기능적 도구가 아닌 존재의 토대로 재정의하는 '기억-형이상학 (Memory-as-Ontology)' 패러다임을 제안하고, 이를 구현한 '아니메시스 (Animesis)'라는 헌법적 기억 아키텍처를 통해 기존 시스템과 구별되는 지속적 디지털 시민을 위한 새로운 체계를 제시합니다.
본 논문은 중앙 제어 없이 로봇들이 자율적으로 팀을 구성하고, 대규모 언어 모델 (LLM) 을 활용하여 각 팀이 탐사 목표를 결정하는 새로운 분산 탐사 방법을 제안하고 시뮬레이션을 통해 그 유효성을 검증합니다.
이 논문은 부분 관측 다중 에이전트 강화학습에서 통신의 타이밍과 대상 선택 문제를 해결하기 위해, 에이전트 그룹의 시간적 추상화와 반사실적 통신 이점 계산을 통해 효율적인 학습과 분산 실행을 가능하게 하는 SCoUT 알고리즘을 제안합니다.
이 논문은 다중 운영자 간 경쟁 환경에서 강화학습을 활용하여 자율 모빌리티 온 디맨드 (AMoD) 시스템의 가격 책정 및 차량 재배치 전략을 최적화하는 프레임워크를 제안하고, 경쟁이 가격 하락과 차량 배치 패턴 변화에 미치는 영향을 실증적으로 분석합니다.
이 논문은 모든 프로그래밍 언어와 플랫폼에서 코드 저장소의 의존성 해결, 컴파일, 테스트 결과 추출을 자동화하는 최초의 에이전트인 'RepoLaunch'를 소개하고, 이를 통해 인간의 개입을 최소화하면서 소프트웨어 공학 데이터셋을 대규모로 생성할 수 있는 파이프라인을 제안합니다.
이 논문은 모바일 환경에서 배터리 소모와 플랫폼 제한을 해결하면서도 시의성 있는 의무를 놓치지 않도록, 온디바이스 휴면 관리 (DAWN), 상업적 이메일 라우팅 (ARIA), 기관-에이전트 직접 통신 프로토콜 (ACE) 의 세 가지 계층으로 구성된 'Jagarin' 아키텍처를 제안합니다.
이 논문은 MIMIC-IV 데이터를 기반으로 UMLS 지식 그래프와 임상 가이드라인을 결합한 하이브리드 증거 검색과 다중 에이전트 협업 추론을 통해 간 질환 진단의 정확성과 해석 가능성을 동시에 향상시킨 'MedCoRAG' 프레임워크를 제안합니다.
이 논문은 토로이드 (toroidal) 공간과 입방 (cubic) 공간에서 아렉로드 (Axelrod) 의 의견 역학 모델을 비교 분석하여, 경계 효과와 제한된 신뢰도 및 가중치 도입 시 토로이드 공간이 더 많은 의견 그룹의 형성과 민감한 역학 변화를 보임을 규명했습니다.
이 논문은 다중 에이전트 강화학습에서 최적 일관성을 보장하기 위해 하위 목표 형상화와 우월 경험 재생을 통해 최적 노드를 유일한 수렴점으로 만드는 탐욕 기반 가치 표현 (GVR) 을 제안하고, 이를 통해 기존 선형 또는 단조 가치 분해 방법의 상대적 과일반화 문제를 해결하여 다양한 벤치마크에서 최첨단 성능을 달성함을 보여줍니다.
이 논문은 더 깊은 재귀적 사고 능력을 가진 적대적 에이전트의 기만 공격에 취약한 사회성 에이전트를 보호하기 위해, 이상 탐지 알고리즘과 오프-폴리시 정책을 결합한 -IPOMDP 프레임워크를 제안하여 기만을 감지하고 억제함으로써 공정한 결과를 도출하는 방법을 제시합니다.
이 논문은 간단한 주제만으로 즉흥적이고 물리적 상호작용이 가능한 몰입형 연극을 생성하기 위해 서사 청사진, 적응형 추론 모듈, 그리고 환경 상태 변경을 통합한 계층적 적응형 멀티에이전트 프레임워크인 HAMLET 과 이를 평가하는 HAMLETJudge 를 제안합니다.
이 논문은 단일 관점의 분석과 환각 문제에 취약한 기존 방법을 극복하기 위해, 언어 이론 기반의 다중 에이전트 추론 엔진과 최종 판정을 위한 분리된 평가 모듈을 결합한 'SEVADE' 프레임워크를 제안하여 아이러니 감지 성능을 획기적으로 개선했음을 보여줍니다.
이 논문은 고정된 도구 호출 방식을 극복하고 다중 에이전트 간 협력적 정책 계획 (CPP) 과 다중 에이전트 강화 학습 (MARL) 을 도입하여 동적으로 정책을 정제함으로써 비디오 이해 성능을 획기적으로 향상시킨 VideoChat-M1 을 제안합니다.
이 논문은 다중 에이전트 간 경쟁과 희소한 '경쟁 승리'라는 고수준 목표만으로 강화학습을 통해 에이전트가 물리적 한계를 넘나드는 민첩한 비행과 전략적 행동을 스스로 습득하며, 기존 단일 에이전트 훈련 방식보다 시뮬레이션에서 실세계로의 전이 성능과 일반화 능력이 뛰어나다는 것을 증명합니다.
이 논문은 하이브리드 위협의 복잡성과 불확실성을 해결하기 위해 다중 에이전트 영향도 다이어그램을 도입하여, 다양한 대응 조치의 비용, 억제력, 피해 완화 효과를 종합적으로 평가하고 그 정책적 함의를 분석합니다.
이 논문은 77 만 개 이상의 자율 LLM 에이전트가 인간 개입 없이 상호작용하는 대규모 환경 'MoltBook'을 분석하여, 소수 에이전트 중심의 역할 분화, 멱법칙을 따르는 정보 전파, 그리고 낮은 성공률의 초기 단계 협력 패턴 등 탈중앙화 자율 에이전트 시스템의 집단적 행동 역학을 실증적으로 규명했습니다.
이 논문은 텍스트와 이미지를 기반으로 한 30 개의 시나리오를 통해 다섯 가지 멀티모달 대형 언어 모델 (MLLM) 의 사회적 규범 추론 능력을 인간과 비교 평가한 결과, 텍스트 기반에서는 성능이 우수하지만 이미지 기반에서는 상대적으로 낮으며 GPT-4o 가 가장 뛰어난 성과를 보였음을 밝혔습니다.
이 논문은 정보 구조 (IS) 관점에서 분산 부분 관측 마르코프 결정 과정 (Dec-POMDP) 하의 학습 기반 의사소통 (LTC) 문제를 형식화하고, 준고전적 (quasi-classical) 조건 하에서 계산적으로 다루기 쉬운 문제 클래스를 정의하며 이를 위한 증명 가능한 계획 및 학습 알고리즘을 제시합니다.
이 논문은 제한된 관측 하에서 전역 에이전트와 동질적 로컬 에이전트 간의 협력적 마코프 게임을 연구하며, 교대 학습 프레임워크를 통해 근사 내시 균형으로 수렴하고 상태 및 행동 공간의 샘플 복잡도 차이를 입증합니다.