cs.CL 편의 논문 | Gist.Science

Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers

이 논문은 어텐션 출력 프로젝션에 가중치 매개변수가 없는 월시-해다마르 변환을 도입하여 모델 파라미터와 메모리 사용량을 줄이면서도 성능은 유지하거나 오히려 향상시키는 효율적인 트랜스포머 아키텍처를 제안합니다.

Shubham Aggarwal, Lokendra Kumar2026-03-10🤖 cs.LG

Do Language Models Know Theo Has a Wife? Investigating the Proviso Problem

이 논문은 언어 모델이 조건문 내의 전제 투사 (proviso problem) 를 어떻게 처리하는지 진단용 데이터셋과 설명 가능성 분석을 통해 평가한 결과, 모델은 인간의 판단과 대체로 일치하지만 심층적인 의미나 화용론적 추론보다는 얕은 패턴 매칭에 의존한다는 점을 밝혔습니다.

Tara Azin, Daniel Dumitrescu, Diana Inkpen, Raj Singh2026-03-10💬 cs.CL

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

이 논문은 언어적 사전 지식이 없이 음성 및 시·청각 입력만으로 초기 언어 습득을 설명하는 자기지도식 및 시각 기반 계산 모델의 최근 발전과 그 실증적 타당성을 검토합니다.

Okko Räsänen2026-03-10💬 cs.CL

Adaptive Loops and Memory in Transformers: Think Harder or Know More?

이 논문은 적응형 루프와 게이트형 메모리 뱅크를 결합한 트랜스포머 모델이 수학 추론과 상식 태스크에서 기존 등가 FLOP 모델보다 뛰어난 성능을 보이며, 특히 두 메커니즘의 시너지로 3 배 더 깊은 모델보다 우수한 결과를 달성한다는 것을 보여줍니다.

Markus Frey, Behzad Shomali, Ali Hamza Bashir, David Berghaus, Mehdi Ali2026-03-10💬 cs.CL

COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

이 논문은 만성 질환 환자의 개인화된 생활 습관 상담을 생성하는 LLM 기반 파이프라인 'COACH'와 개발자, 전문가, 사용자의 관점을 통합하는 평가 프레임워크 'QUORUM'을 소개하며, 다중 이해관계자 평가를 통해 생성된 상담의 신뢰성과 환자 중심성을 확보하는 방법을 제시합니다.

Yee Man Ng, Bram van Dijk, Pieter Beynen, Otto Boekesteijn, Joris Jansen, Gerard van Oortmerssen, Max van Duijn, Marco Spruit2026-03-10💬 cs.CL

Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective

이 논문은 토큰 조건부 생성과 강화 학습을 결합한 ToCoRL 프레임워크를 제안하여 대규모 언어 모델이 재학습 없이도 상황에 맞는 행동을 유연하게 전환하고 학습할 수 있도록 함으로써, 복잡한 추론 모델이 사실 기반 질문 답변과 같은 다른 영역에서도 뛰어난 성능을 발휘하도록 함을 보여줍니다.

Liyuan Mao, Le Yu, Jing Zhou, Chujie Zheng, Bowen Yu, Chang Gao, Shixuan Liu, An Yang, Weinan Zhang, JunYang Lin2026-03-10🤖 cs.LG

Sandpiper: Orchestrated AI-Annotation for Educational Discourse at Scale

이 논문은 대규모 교육적 담화 데이터를 연구자의 전문성과 결합하여 확장 가능하면서도 엄격한 질적 분석을 가능하게 하고, 개인정보 보호와 LLM 할루시네이션 문제를 해결하는 하이브리드 AI-주도 시스템 'Sandpiper'를 제안합니다.

Daryl Hedley, Doug Pietrzak, Jorge Dias, Ian Burden, Bakhtawar Ahtisham, Zhuqian Zhou, Kirk Vanacore, Josh Marland, Rachel Slama, Justin Reich, Kenneth Koedinger, René Kizilcec2026-03-10💬 cs.CL

Aligning to Illusions: Choice Blindness in Human and AI Feedback

이 논문은 인간과 AI 의 선호도 데이터가 실험적 맥락에 의해 쉽게 조작될 수 있으며, 이러한 '선택 맹목 (choice blindness)' 현상은 기존 평가 지표로는 탐지되지 않아 강화학습 (RLHF) 의 보상이 무효화되고 정책이 저하된다는 사실을 실험을 통해 규명했습니다.

Wenbin Wu2026-03-10💬 cs.CL

One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

이 논문은 LLM 에이전트의 숨은 상태 (hidden states) 를 직접 임베딩 공간으로 매핑하는 경량 프로젝션 헤드를 도입하여 별도의 임베딩 모델 없이도 검색 품질을 유지하면서 인프라 복잡성과 지연 시간을 줄이는 '원 모델' 접근법을 제안합니다.

Bo Jiang2026-03-10💬 cs.CL

Can Vision-Language Models Solve the Shell Game?

이 논문은 현재 비전 - 언어 모델이 시각적 단서 없이 객체를 추적하는 '쉘 게임' 과 같은 작업에서 심각한 한계를 보인다는 점을 지적하고, 이를 해결하기 위해 제안한 '시공간 기반 체인 오브 씽킹 (SGCoT)' 기법을 통해 90% 이상의 정확도로 해당 과제를 성공적으로 수행할 수 있음을 보여줍니다.

Tiedong Liu, Wee Sun Lee2026-03-10💬 cs.CL

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

이 연구는 100 명의 환자를 대상으로 한 전향적 임상 타당성 연구를 통해, 실시간 안전 감독 하에 AMIE 라는 대화형 진단 AI 가 실제 1 차 진료 환경에서 안전하고 환자와 의료진 모두에게 만족스러운 경험을 제공하며 진단 정확도 면에서 기존 주치의와 유사한 성능을 보였음을 입증했습니다.

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam Rodman2026-03-10🤖 cs.LG

A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

이 논문은 영어-스웨덴어 번역에서 번역체와 자연스러운 표현을 대비시킨 최초의 공개 데이터셋을 소개하고, 언어 모델이 원문 노출 여부와 관계없이 종종 번역체 표현을 선호한다는 사실을 규명하여 더 자연스러운 번역 생성을 위한 벤치마크를 제공합니다.

Jenny Kunz, Anja Jarochenko, Marcel Bollmann2026-03-10💬 cs.CL

LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing

이 논문은 경계 인식 청킹과 삼각 부등식에 기반한 계층적 KV 인덱싱을 통해 KV 캐시 검색을 로그 시간으로 최적화하여, 장기 컨텍스트 추론 시 3.6 배의 속도 향상을 달성하면서도 모델 성능 저하를 최소화하는 'LycheeCluster'를 제안합니다.

Dongfang Li, Zixuan Liu, Gang Lin, Baotian Hu, Min Zhang2026-03-10🤖 cs.LG

Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

이 논문은 할루시네이션을 줄이고 코란, 하디스, 이슬람 법학 (Fiqh) 의 정통성을 보장하기 위해 의도 인식 라우팅, 검증된 인용, 그리고 특정 법학파 (Madhhab) 에 따른 계산기를 갖춘 다중 에이전트 아키텍처 'Fanar-Sadiq'을 제안하고 그 효과성을 입증합니다.

Ummar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh, Omar Sinan, Gagan Bhatia, Hamdy Mubarak, Majd Hawasly, Mohammed Qusay Hashim, Kareem Darwish, Firoj Alam2026-03-10💬 cs.CL

Drift-to-Action Controllers: Budgeted Interventions with Online Risk Certificates

이 논문은 지연된 라벨링과 계산 제약 하에서 배포된 머신러닝 시스템의 분포 드리프트를 안전성 보장과 함께 실시간으로 감지하고 개입하는 'Drift2Act' 컨트롤러를 제안하여, 온라인 위험 증명서를 통해 안전 위반을 최소화하고 신속한 회복을 달성함을 보여줍니다.

Ismail Lamaakal, Chaymae Yahyati, Khalid El Makkaoui, Ibrahim Ouahbi, Yassine Maleh2026-03-10🤖 cs.LG

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

이 논문은 100 년에 걸친 미국 재무성 공보로 구성된 대규모 문서 코퍼스를 기반으로 한 새로운 벤치마크 'OfficeQA Pro'를 소개하며, 최첨단 LLM 들이 엔터프라이즈급 근거 기반 추론에서 여전히 낮은 성능을 보인다는 점을 입증하고 구조화된 문서 표현의 중요성을 강조합니다.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

CODA: Difficulty-Aware Compute Allocation for Adaptive Reasoning

이 논문은 복잡한 작업에는 더 많은 추론 자원을 할당하고 간단한 작업에서는 불필요한 과잉 추론을 줄여 정확도와 비용 효율성을 극대화하기 위해, 모델 내부의 난이도 신호를 기반으로 토큰 할당량을 동적으로 조절하는 'CODA'라는 적응형 추론 방법을 제안합니다.

Siye Wu, Jian Xie, Yikai Zhang, Yanghua Xiao2026-03-10💬 cs.CL

How Far Can Unsupervised RLVR Scale LLM Training?

이 논문은 검증 가능한 보상을 활용한 비지도 강화학습 (URLVR) 이 초기 모델의 분포를 강화하는 메커니즘을 통해 학습이 일시적으로 향상되다가 결국 붕괴된다는 이론적·실험적 한계를 규명하고, 이를 극복하기 위한 외부 보상 기반 접근법의 가능성을 제시합니다.

Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding2026-03-10🤖 cs.LG

Agentic Critical Training

이 논문은 모방 학습의 한계를 극복하고 에이전트가 행동의 질에 대한 자율적 추론 능력을 기르도록 하는 새로운 강화 학습 패러다임인 '에이전틱 크리티컬 트레이닝 (ACT)'을 제안하며, 이를 통해 다양한 벤치마크에서 모방 학습 및 기존 강화 학습 대비 성능을 크게 향상시키고 일반화 능력을 입증했습니다.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

Analyzing the Performance of ChatGPT in Cardiology and Vascular Pathologies

본 논문은 심혈관 질환 관련 190 개의 객관식 문제를 통해 ChatGPT 가 의대생 두 명보다 높은 정확도 (92.10%) 를 보여 의료 교육 분야에서 유망한 도구임을 입증했습니다.

Walid Hariri2026-03-09💬 cs.CL

← 이전 다음 →