Human-Centred LLM Privacy Audits: Findings and Frictions

이 논문은 대규모 언어 모델 (LLM) 이 개인의 이름과 어떤 정보를 연관 짓는지 사용자가 직접 확인할 수 있도록 돕는 'LMP2'라는 브라우저 기반 자기 감사 도구를 소개하고, 사용자 연구와 다양한 모델 평가를 통해 LLM 프라이버시 감사의 실효성을 입증함과 동시에 확률적이고 맥락 의존적인 생성형 AI 평가의 근본적인 난제와 개선 방향을 제시합니다.

Dimitri Staufer, Kirsten Morehouse, David Hartmann, Bettina Berendt2026-03-13💬 cs.CL

A Robust and Efficient Multi-Agent Reinforcement Learning Framework for Traffic Signal Control

이 논문은 Vissim 시뮬레이터에서 검증된 강화 학습 기반의 다중 에이전트 프레임워크를 제안하여, 회전비 무작위화, 지수적 신호 단계 조정, 그리고 이웃 기반 관측 기법을 통해 기존 방법보다 10% 이상 평균 대기 시간을 단축하고 다양한 교통 상황에 대한 일반화 성능과 제어 안정성을 크게 향상시켰음을 보여줍니다.

Sheng-You Huang, Hsiao-Chuan Chang, Yen-Chi Chen, Ting-Han Wei, I-Hau Yeh, Sheng-Yao Kuan, Chien-Yao Wang, Hsuan-Han Lee, I-Chen Wu2026-03-13🤖 cs.AI

On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents

이 논문은 강화학습 기반 LLM 에이전트가 능동적 추론 과정에서 정보 획득을 중단하고 기존 정보를 활용하지 못하는 '정보 자기잠금' 현상을 발견하고, 이를 해결하기 위해 방향성 피드백을 주입하는 새로운 접근법을 제안하여 성능을 최대 60% 향상시켰음을 보여줍니다.

Deyu Zou, Yongqiang Chen, Fan Feng, Mufei Li, Pan Li, Yu Gong, James Cheng2026-03-13🤖 cs.AI

SommBench: Assessing Sommelier Expertise of Language Models

이 논문은 언어 모델이 텍스트 기반 학습만으로 후각과 미각에 기반한 소믈리에 전문성을 습득할 수 있는지 평가하기 위해, 와인 이론, 특징 완성, 음식-와인 페어링 등 세 가지 다국어 태스크로 구성된 'SommBench' 벤치마크를 제안하고 주요 모델들의 성능을 분석한 결과입니다.

William Brach, Tomas Bedej, Jacob Nielsen, Jacob Pichna, Juraj Bedej, Eemeli Saarensilta, Julie Dupouy, Gianluca Barmina, Andrea Blasi Núñez, Peter Schneider-Kamp, Kristian Koštál, Michal Ries, Lukas Galke Poech2026-03-13💬 cs.CL

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

이 논문은 기존 다단계 생성 모델의 계산 비효율성과 기존 증류 방법의 품질 저하 문제를 해결하기 위해, 하이브리드 전략을 통해 궤적 정확도와 화질을 모두 유지하는 소수 단계의 비디오 생성 프레임워크 'FlashMotion'과 이를 평가하는 벤치마크 'FlashBench'를 제안합니다.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

이 논문은 LLM 강화학습 (RL) 후학습의 연산 효율성을 극대화하기 위해 병렬 롤아웃 수, 배치 내 문제 수, 업데이트 단계 수 간의 최적 자원 배분 전략을 제시하며, 병렬 롤아웃 증가는 문제 난이도에 따라 솔루션 정교화 또는 탐색 범위 확장을 통해 성능을 향상시킨다는 실증적 결과를 도출했습니다.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows

이 논문은 복잡한 문자와 수식의 정확한 렌더링을 위해 보조 도구를 활용해 글리프 템플릿을 잠재 공간과 주의 맵에 주입하는 훈련 없는 에이전트 워크플로우인 GlyphBanana 를 제안하고, 이를 통해 기존 모델들보다 뛰어난 정밀도를 달성함을 보여줍니다.

Zexuan Yan, Jiarui Jin, Yue Ma, Shijian Wang, Jiahui Hu, Wenxiang Jiao, Yuan Lu, Linfeng Zhang2026-03-13🤖 cs.AI

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

이 논문은 MADQA 벤치마크와 새로운 평가 프로토콜을 통해 멀티모달 에이전트가 인간과 유사한 정확도를 달성하더라도 전략적 추론보다는 무작위 검색에 의존하며 효율성 측면에서 한계를 보임을 규명합니다.

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

이 논문은 단일 머신러닝 원자간 전위 (MLIP) 모델이 안정성 필터링에서 93% 의 실패율을 보인다는 문제를 지적하고, 적대적 검증, 부트스트랩 신뢰구간, 그리고 Lean 4 형식 증명을 결합한 'Proof-Carrying Materials (PCM)' 프레임워크를 통해 MLIP 기반 신소재 발견의 신뢰성과 수율을 획기적으로 개선하는 방법을 제시합니다.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

이 논문은 광학 원격 탐사 이미지의 다양한 크기 변화와 글로벌 컨텍스트 모델링 문제를 해결하기 위해 SwinTransformer 백본과 동적 적응 세부 인식 (DAD), 주파수 정합 컨텍스트 강화 (FCE), 영역 비율 인식 위치 확인 (RPL) 모듈을 결합한 RDNet 을 제안하여 기존 방법보다 우수한 성능을 달성함을 보여줍니다.

Bin Wan, Runmin Cong, Xiaofei Zhou, Hao Fang, Yaoqi Sun, Sam Kwong2026-03-13🤖 cs.AI