cs.CL 편의 논문 | Gist.Science

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

이 논문은 EPSRC 제안서를 대상으로 구조적 변형을 통해 LLM 기반 심사 방식을 평가한 결과, 섹션 단위 분석이 가장 효과적이었으나 현재 LLM 은 명확성 결함을 놓치고 순응성 확인에 치우쳐 고위험 평가에서는 보조적 역할만 수행할 수 있음을 밝혔습니다.

William Thorne, Joseph James, Yang Wang, Chenghua Lin, Diana Maynard2026-03-10💬 cs.CL

Using Multimodal and Language-Agnostic Sentence Embeddings for Abstractive Summarization

이 논문은 다중 모달 및 언어 중립적 문장 임베딩과 개체명 주입 메커니즘을 결합한 'SBARThez'라는 새로운 프레임워크를 제안하여, 특히 저자원 언어와 다국어 환경에서 사실적 일관성을 높이고 더 간결한 추상적 요약을 생성하는 것을 목표로 합니다.

Chaimae Chellaf, Salima Mdhaffar, Yannick Estève, Stéphane Huet2026-03-10💬 cs.CL

LAMUS: A Large-Scale Corpus for Legal Argument Mining from U.S. Caselaw using LLMs

이 논문은 LLM 기반 자동 주석과 인간 검증 프로세스를 결합하여 미국 연방 대법원 및 텍사스 형사 상고 판례에서 구축된 대규모 법률 논증 마이닝 코퍼스 LAMUS 를 소개하고, 체인 오브 씽킹 프롬프팅이 모델 성능을 크게 향상시킨다는 것을 입증합니다.

Serene Wang, Lavanya Pobbathi, Haihua Chen2026-03-10💬 cs.CL

Learning Multiple Utterance-Level Attribute Representations with a Unified Speech Encoder

이 논문은 단일 음성 기반 모델을 통해 의미 및 화자 표현 등 다양한 발화 수준 속성 표현을 동시에 학습할 수 있는 통합 후학습 프레임워크를 제안하고, 이를 다국어 음성 검색 및 화자 인식 작업에서 효과적으로 검증했습니다.

Maryem Bouziane, Salima Mdhaffar, Yannick Estève2026-03-10💬 cs.CL

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

이 논문은 VLM 기반 GUI 에이전트의 응답 효율성을 저해하는 새로운 백도어 공격 'SlowBA'를 제안하며, 특정 트리거 패턴 하에서 과도한 추론 체인을 유도하여 응답 지연을 발생시키는 메커니즘과 이를 위한 강화학습 기반의 이단계 주입 전략을 소개합니다.

Junxian Li, Tu Lan, Haozhen Tan, Yan Meng, Haojin Zhu2026-03-10💬 cs.CL

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

이 논문은 방대한 문서 코퍼스를 대상으로 복잡한 질문에 답할 때 표준 RAG 의 증거 부족과 장문맥 LLM 의 추론 한계를 해결하기 위해, 각 문서를 전용 에이전트가 처리하고 조정자가 이를 통합하는 계층적 다중 에이전트 프레임워크인 SPD-RAG 를 제안하며, LOONG 벤치마크에서 기존 방법보다 높은 정확도와 비용 효율성을 입증했습니다.

Yagiz Can Akay, Muhammed Yusuf Kartal, Esra Alparslan, Faruk Ortakoyluoglu, Arda Akpinar2026-03-10💬 cs.CL

Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers

이 논문은 어텐션 출력 프로젝션에 가중치 매개변수가 없는 월시-해다마르 변환을 도입하여 모델 파라미터와 메모리 사용량을 줄이면서도 성능은 유지하거나 오히려 향상시키는 효율적인 트랜스포머 아키텍처를 제안합니다.

Shubham Aggarwal, Lokendra Kumar2026-03-10🤖 cs.LG

Do Language Models Know Theo Has a Wife? Investigating the Proviso Problem

이 논문은 언어 모델이 조건문 내의 전제 투사 (proviso problem) 를 어떻게 처리하는지 진단용 데이터셋과 설명 가능성 분석을 통해 평가한 결과, 모델은 인간의 판단과 대체로 일치하지만 심층적인 의미나 화용론적 추론보다는 얕은 패턴 매칭에 의존한다는 점을 밝혔습니다.

Tara Azin, Daniel Dumitrescu, Diana Inkpen, Raj Singh2026-03-10💬 cs.CL

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

이 논문은 언어적 사전 지식이 없이 음성 및 시·청각 입력만으로 초기 언어 습득을 설명하는 자기지도식 및 시각 기반 계산 모델의 최근 발전과 그 실증적 타당성을 검토합니다.

Okko Räsänen2026-03-10💬 cs.CL

Adaptive Loops and Memory in Transformers: Think Harder or Know More?

이 논문은 적응형 루프와 게이트형 메모리 뱅크를 결합한 트랜스포머 모델이 수학 추론과 상식 태스크에서 기존 등가 FLOP 모델보다 뛰어난 성능을 보이며, 특히 두 메커니즘의 시너지로 3 배 더 깊은 모델보다 우수한 결과를 달성한다는 것을 보여줍니다.

Markus Frey, Behzad Shomali, Ali Hamza Bashir, David Berghaus, Mehdi Ali2026-03-10💬 cs.CL

COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

이 논문은 만성 질환 환자의 개인화된 생활 습관 상담을 생성하는 LLM 기반 파이프라인 'COACH'와 개발자, 전문가, 사용자의 관점을 통합하는 평가 프레임워크 'QUORUM'을 소개하며, 다중 이해관계자 평가를 통해 생성된 상담의 신뢰성과 환자 중심성을 확보하는 방법을 제시합니다.

Yee Man Ng, Bram van Dijk, Pieter Beynen, Otto Boekesteijn, Joris Jansen, Gerard van Oortmerssen, Max van Duijn, Marco Spruit2026-03-10💬 cs.CL

Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective

이 논문은 토큰 조건부 생성과 강화 학습을 결합한 ToCoRL 프레임워크를 제안하여 대규모 언어 모델이 재학습 없이도 상황에 맞는 행동을 유연하게 전환하고 학습할 수 있도록 함으로써, 복잡한 추론 모델이 사실 기반 질문 답변과 같은 다른 영역에서도 뛰어난 성능을 발휘하도록 함을 보여줍니다.

Liyuan Mao, Le Yu, Jing Zhou, Chujie Zheng, Bowen Yu, Chang Gao, Shixuan Liu, An Yang, Weinan Zhang, JunYang Lin2026-03-10🤖 cs.LG

Sandpiper: Orchestrated AI-Annotation for Educational Discourse at Scale

이 논문은 대규모 교육적 담화 데이터를 연구자의 전문성과 결합하여 확장 가능하면서도 엄격한 질적 분석을 가능하게 하고, 개인정보 보호와 LLM 할루시네이션 문제를 해결하는 하이브리드 AI-주도 시스템 'Sandpiper'를 제안합니다.

Daryl Hedley, Doug Pietrzak, Jorge Dias, Ian Burden, Bakhtawar Ahtisham, Zhuqian Zhou, Kirk Vanacore, Josh Marland, Rachel Slama, Justin Reich, Kenneth Koedinger, René Kizilcec2026-03-10💬 cs.CL

Aligning to Illusions: Choice Blindness in Human and AI Feedback

이 논문은 인간과 AI 의 선호도 데이터가 실험적 맥락에 의해 쉽게 조작될 수 있으며, 이러한 '선택 맹목 (choice blindness)' 현상은 기존 평가 지표로는 탐지되지 않아 강화학습 (RLHF) 의 보상이 무효화되고 정책이 저하된다는 사실을 실험을 통해 규명했습니다.

Wenbin Wu2026-03-10💬 cs.CL

One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

이 논문은 LLM 에이전트의 숨은 상태 (hidden states) 를 직접 임베딩 공간으로 매핑하는 경량 프로젝션 헤드를 도입하여 별도의 임베딩 모델 없이도 검색 품질을 유지하면서 인프라 복잡성과 지연 시간을 줄이는 '원 모델' 접근법을 제안합니다.

Bo Jiang2026-03-10💬 cs.CL

Can Vision-Language Models Solve the Shell Game?

이 논문은 현재 비전 - 언어 모델이 시각적 단서 없이 객체를 추적하는 '쉘 게임' 과 같은 작업에서 심각한 한계를 보인다는 점을 지적하고, 이를 해결하기 위해 제안한 '시공간 기반 체인 오브 씽킹 (SGCoT)' 기법을 통해 90% 이상의 정확도로 해당 과제를 성공적으로 수행할 수 있음을 보여줍니다.

Tiedong Liu, Wee Sun Lee2026-03-10💬 cs.CL

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

이 연구는 100 명의 환자를 대상으로 한 전향적 임상 타당성 연구를 통해, 실시간 안전 감독 하에 AMIE 라는 대화형 진단 AI 가 실제 1 차 진료 환경에서 안전하고 환자와 의료진 모두에게 만족스러운 경험을 제공하며 진단 정확도 면에서 기존 주치의와 유사한 성능을 보였음을 입증했습니다.

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam Rodman2026-03-10🤖 cs.LG

← 이전 다음 →

cs.CL