Quantal Response Equilibrium as a Measure of Strategic Sophistication: Theory and Validation for LLM Evaluation

이 논문은 이론적 근거가 부족한 기존 ToM 벤치마크의 한계를 극복하기 위해 양자적 반응 균형 (QRE) 을 기반으로 한 게임 이론적 평가 프레임워크를 제안하고, 이를 통해 다양한 대규모 언어 모델의 전략적 추론 능력을 인간 데이터에 기반한 연속적 척도로 정량화하고 검증했습니다.

Mateo Pechon-Elkins, Jon Chun2026-03-12💻 cs

Evaluating Generalization Mechanisms in Autonomous Cyber Attack Agents

이 논문은 NetSecGame 환경에서 IP 주소 재배치와 같은 미세한 변화가 자율 공격 에이전트의 일반화 능력을 어떻게 저해하는지 평가하고, 기존 강화학습 및 적응형 에이전트보다 추론 비용과 투명성 문제가 있음에도 불구하고 프롬프트 기반 사전 훈련 LLM 에이전트가 가장 높은 성공률을 보였음을 밝혔습니다.

Ondřej Lukáš, Jihoon Shin, Emilia Rivas, Diego Forni, Maria Rigaki, Carlos Catania, Aritran Piplai, Christopher Kiekintveld, Sebastian Garcia2026-03-12💻 cs

OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies

이 논문은 3D 공간의 에너지 함수로 표현된 다양한 안내 소스를 활용하여 복잡한 작업에서 시각 - 언어 - 행동 (VLA) 모델의 성능과 안전성을 획기적으로 향상시키는 범용 프레임워크인 '오미가이드 (OmniGuide)'를 제안합니다.

Yunzhou Song, Long Le, Yong-Hyun Park, Jie Wang, Junyao Shi, Lingjie Liu, Jiatao Gu, Eric Eaton, Dinesh Jayaraman, Kostas Daniilidis2026-03-12💻 cs

Building Privacy-and-Security-Focused Federated Learning Infrastructure for Global Multi-Centre Healthcare Research

이 논문은 개인 정보 보호 및 규제 준수를 위해 인증, 권한 부여, 감사 기능을 통합한 새로운 연동 학습 플랫폼 'FLA³'를 제안하고, 이를 다국적 의료 연구에 적용하여 중앙 집중식 학습과 동등한 예측 성능을 유지하면서도 엄격한 거버넌스 제약을 준수할 수 있음을 입증했습니다.

Fan Zhang, Daniel Kreuter, Javier Fernandez-Marques, BloodCounts Consortium, Gregory Verghese, Bernard Butler, Nicholas Lane, Suthesh Sivapalaratnam, Joseph Taylor, Norbert C. J. de Wit, Nicholas S. Gleadall, Carola-Bibiane Schönlieb, Michael Roberts2026-03-12💻 cs

Pooling Engram Conditional Memory in Large Language Models using CXL

이 논문은 Engram 의 희소 접근 패턴에 최적화된 CXL 메모리 풀을 SGLang 에 통합하여, 대규모 언어 모델의 추론 성능을 저해하지 않으면서도 확장 가능하고 비용 효율적인 메모리 솔루션을 제시합니다.

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie Luo2026-03-12💻 cs