One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

이 논문은 코드 분석을 위한 단일 모델의 다중 태스크 파라미터 효율적 미세 조정 (PEFT) 을 체계적으로 평가하여, 단일 태스크 미세 조정과 유사한 성능을 유지하면서 저장 공간과 계산 비용을 대폭 절감할 수 있음을 입증하고, 작업 간 상호 보완성 및 모델 아키텍처 등 성공 요인을 규명했습니다.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

μ\muEd API: Towards A Shared API for EdTech Microservices

이 논문은 대규모 학습 환경에서 특정 도메인의 자동화를 가능하게 하고 상호 운용 가능한 에코시스템을 구축하기 위해 4 개 기관의 기존 시스템 기능을 통합한 교육용 마이크로서비스 표준 API(μ\muEd) 의 초기 사양을 제안합니다.

Maximillan Sölch, Alexandra Neagu, Marcus Messer, Peter Johnson, Gerd Kortemeyer, Samuel S. H. Ng, Fun Siong Lim, Stephan Krusche2026-03-12💻 cs

The science and practice of proportionality in AI risk evaluations

이 논문은 EU 인공지능법 하에서 일반 목적 AI 모델 제공자에게 부과된 시스템적 위험 평가 의무가 혁신을 저해하지 않으면서도 실효적인 위험 정보를 제공할 수 있도록, EU 법의 비례성 원칙을 기반으로 한 과학적 평가 방법론의 개발 필요성과 실천 방안을 논의합니다.

Carlos Mougan, Lauritz Morlock, Jair Aguirre, James R. M. Black, Jan Brauner, Simeon Campos, Sunishchal Dev, David Fernández Llorca, Alberto Franzin, Mario Fritz, Emilia Gómez, Friederike Grosse-Holz, Eloise Hamilton, Max Hasin, Jose Hernandez-Orallo, Dan Lahav, Luca Massarelli, Vasilios Mavroudis, Malcolm Murray, Patricia Paskov, Jaime Raldua, Wout Schellaert2026-03-12💻 cs

DeliberationBench: A Normative Benchmark for the Influence of Large Language Models on Users' Views

이 논문은 대규모 언어 모델 (LLM) 의 사용자의 견해에 미치는 영향을 평가하기 위해 deliberative opinion polling 과정을 표준으로 삼은 'DeliberationBench'를 제안하고, 4,088 명의 미국 참가자를 대상으로 한 실험을 통해 해당 모델들이 민주적으로 정당한 기준에 부합하며 사용자의 자율성을 해치지 않는 긍정적인 인식적 영향을 미친다는 것을 입증했습니다.

Luke Hewitt, Maximilian Kroner Dale, Paul de Font-Reaulx2026-03-12💻 cs

Quantal Response Equilibrium as a Measure of Strategic Sophistication: Theory and Validation for LLM Evaluation

이 논문은 이론적 근거가 부족한 기존 ToM 벤치마크의 한계를 극복하기 위해 양자적 반응 균형 (QRE) 을 기반으로 한 게임 이론적 평가 프레임워크를 제안하고, 이를 통해 다양한 대규모 언어 모델의 전략적 추론 능력을 인간 데이터에 기반한 연속적 척도로 정량화하고 검증했습니다.

Mateo Pechon-Elkins, Jon Chun2026-03-12💻 cs

Evaluating Generalization Mechanisms in Autonomous Cyber Attack Agents

이 논문은 NetSecGame 환경에서 IP 주소 재배치와 같은 미세한 변화가 자율 공격 에이전트의 일반화 능력을 어떻게 저해하는지 평가하고, 기존 강화학습 및 적응형 에이전트보다 추론 비용과 투명성 문제가 있음에도 불구하고 프롬프트 기반 사전 훈련 LLM 에이전트가 가장 높은 성공률을 보였음을 밝혔습니다.

Ondřej Lukáš, Jihoon Shin, Emilia Rivas, Diego Forni, Maria Rigaki, Carlos Catania, Aritran Piplai, Christopher Kiekintveld, Sebastian Garcia2026-03-12💻 cs

OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies

이 논문은 3D 공간의 에너지 함수로 표현된 다양한 안내 소스를 활용하여 복잡한 작업에서 시각 - 언어 - 행동 (VLA) 모델의 성능과 안전성을 획기적으로 향상시키는 범용 프레임워크인 '오미가이드 (OmniGuide)'를 제안합니다.

Yunzhou Song, Long Le, Yong-Hyun Park, Jie Wang, Junyao Shi, Lingjie Liu, Jiatao Gu, Eric Eaton, Dinesh Jayaraman, Kostas Daniilidis2026-03-12💻 cs

Building Privacy-and-Security-Focused Federated Learning Infrastructure for Global Multi-Centre Healthcare Research

이 논문은 개인 정보 보호 및 규제 준수를 위해 인증, 권한 부여, 감사 기능을 통합한 새로운 연동 학습 플랫폼 'FLA³'를 제안하고, 이를 다국적 의료 연구에 적용하여 중앙 집중식 학습과 동등한 예측 성능을 유지하면서도 엄격한 거버넌스 제약을 준수할 수 있음을 입증했습니다.

Fan Zhang, Daniel Kreuter, Javier Fernandez-Marques, BloodCounts Consortium, Gregory Verghese, Bernard Butler, Nicholas Lane, Suthesh Sivapalaratnam, Joseph Taylor, Norbert C. J. de Wit, Nicholas S. Gleadall, Carola-Bibiane Schönlieb, Michael Roberts2026-03-12💻 cs