Do Language Models Know Theo Has a Wife? Investigating the Proviso Problem

이 논문은 언어 모델이 조건문 내의 전제 투사 (proviso problem) 를 어떻게 처리하는지 진단용 데이터셋과 설명 가능성 분석을 통해 평가한 결과, 모델은 인간의 판단과 대체로 일치하지만 심층적인 의미나 화용론적 추론보다는 얕은 패턴 매칭에 의존한다는 점을 밝혔습니다.

Tara Azin, Daniel Dumitrescu, Diana Inkpen, Raj Singh2026-03-10💬 cs.CL

COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

이 논문은 만성 질환 환자의 개인화된 생활 습관 상담을 생성하는 LLM 기반 파이프라인 'COACH'와 개발자, 전문가, 사용자의 관점을 통합하는 평가 프레임워크 'QUORUM'을 소개하며, 다중 이해관계자 평가를 통해 생성된 상담의 신뢰성과 환자 중심성을 확보하는 방법을 제시합니다.

Yee Man Ng, Bram van Dijk, Pieter Beynen, Otto Boekesteijn, Joris Jansen, Gerard van Oortmerssen, Max van Duijn, Marco Spruit2026-03-10💬 cs.CL

Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective

이 논문은 토큰 조건부 생성과 강화 학습을 결합한 ToCoRL 프레임워크를 제안하여 대규모 언어 모델이 재학습 없이도 상황에 맞는 행동을 유연하게 전환하고 학습할 수 있도록 함으로써, 복잡한 추론 모델이 사실 기반 질문 답변과 같은 다른 영역에서도 뛰어난 성능을 발휘하도록 함을 보여줍니다.

Liyuan Mao, Le Yu, Jing Zhou, Chujie Zheng, Bowen Yu, Chang Gao, Shixuan Liu, An Yang, Weinan Zhang, JunYang Lin2026-03-10🤖 cs.LG

Sandpiper: Orchestrated AI-Annotation for Educational Discourse at Scale

이 논문은 대규모 교육적 담화 데이터를 연구자의 전문성과 결합하여 확장 가능하면서도 엄격한 질적 분석을 가능하게 하고, 개인정보 보호와 LLM 할루시네이션 문제를 해결하는 하이브리드 AI-주도 시스템 'Sandpiper'를 제안합니다.

Daryl Hedley, Doug Pietrzak, Jorge Dias, Ian Burden, Bakhtawar Ahtisham, Zhuqian Zhou, Kirk Vanacore, Josh Marland, Rachel Slama, Justin Reich, Kenneth Koedinger, René Kizilcec2026-03-10💬 cs.CL

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

이 연구는 100 명의 환자를 대상으로 한 전향적 임상 타당성 연구를 통해, 실시간 안전 감독 하에 AMIE 라는 대화형 진단 AI 가 실제 1 차 진료 환경에서 안전하고 환자와 의료진 모두에게 만족스러운 경험을 제공하며 진단 정확도 면에서 기존 주치의와 유사한 성능을 보였음을 입증했습니다.

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam Rodman2026-03-10🤖 cs.LG

Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

이 논문은 할루시네이션을 줄이고 코란, 하디스, 이슬람 법학 (Fiqh) 의 정통성을 보장하기 위해 의도 인식 라우팅, 검증된 인용, 그리고 특정 법학파 (Madhhab) 에 따른 계산기를 갖춘 다중 에이전트 아키텍처 'Fanar-Sadiq'을 제안하고 그 효과성을 입증합니다.

Ummar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh, Omar Sinan, Gagan Bhatia, Hamdy Mubarak, Majd Hawasly, Mohammed Qusay Hashim, Kareem Darwish, Firoj Alam2026-03-10💬 cs.CL

Drift-to-Action Controllers: Budgeted Interventions with Online Risk Certificates

이 논문은 지연된 라벨링과 계산 제약 하에서 배포된 머신러닝 시스템의 분포 드리프트를 안전성 보장과 함께 실시간으로 감지하고 개입하는 'Drift2Act' 컨트롤러를 제안하여, 온라인 위험 증명서를 통해 안전 위반을 최소화하고 신속한 회복을 달성함을 보여줍니다.

Ismail Lamaakal, Chaymae Yahyati, Khalid El Makkaoui, Ibrahim Ouahbi, Yassine Maleh2026-03-10🤖 cs.LG

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

이 논문은 100 년에 걸친 미국 재무성 공보로 구성된 대규모 문서 코퍼스를 기반으로 한 새로운 벤치마크 'OfficeQA Pro'를 소개하며, 최첨단 LLM 들이 엔터프라이즈급 근거 기반 추론에서 여전히 낮은 성능을 보인다는 점을 입증하고 구조화된 문서 표현의 중요성을 강조합니다.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

How Far Can Unsupervised RLVR Scale LLM Training?

이 논문은 검증 가능한 보상을 활용한 비지도 강화학습 (URLVR) 이 초기 모델의 분포를 강화하는 메커니즘을 통해 학습이 일시적으로 향상되다가 결국 붕괴된다는 이론적·실험적 한계를 규명하고, 이를 극복하기 위한 외부 보상 기반 접근법의 가능성을 제시합니다.

Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding2026-03-10🤖 cs.LG

Agentic Critical Training

이 논문은 모방 학습의 한계를 극복하고 에이전트가 행동의 질에 대한 자율적 추론 능력을 기르도록 하는 새로운 강화 학습 패러다임인 '에이전틱 크리티컬 트레이닝 (ACT)'을 제안하며, 이를 통해 다양한 벤치마크에서 모방 학습 및 기존 강화 학습 대비 성능을 크게 향상시키고 일반화 능력을 입증했습니다.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG