cs.CL 편의 논문 | Gist.Science

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

이 논문은 CERN 의 CMS 와 같은 대규모 과학 협업에서 민감한 데이터를 온프레미스로 보호하면서 내비게이션과 지식 공유를 개선하기 위해 Selenium 과 OCR 기반 자동 파이프라인, 2 단계 벡터 데이터베이스 아키텍처를 활용한 온프레미스 RAG 기반 AI 어시스턴트 'MITRA'를 제안합니다.

Abhishikth Mallampalli, Sridhara Dasu2026-03-11🤖 cs.AI

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

이 논문은 자연어 평가 요청을 실행 가능하고 추적 가능한 워크플로우로 자동 변환하여 대규모 언어 모델의 평가 과정을 간소화하고 재현성을 높이는 에이전트 기반 시스템 'One-Eval'을 제안합니다.

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang2026-03-11💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

이 논문은 긴 문맥 추론을 위한 체인 오브 에이전트 (CoA) 프레임워크에서 정보 손실을 줄이고 정확도를 향상시키기 위해, 강한 상관관계를 가진 청크를 우선시하는 Chow-Liu 트리를 학습하여 청크 처리 순서를 최적화하는 방법을 제안합니다.

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. C2026-03-11💬 cs.CL

N-gram-like Language Models Predict Reading Time Best

이 논문은 최신 트랜스포머 언어 모델보다 단순한 n-gram 통계에 더 민감한 신경 언어 모델이 자연어 텍스트의 읽기 시간을 더 잘 예측한다는 것을 증명합니다.

James A. Michaelov, Roger P. Levy2026-03-11💬 cs.CL

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

이 논문은 말로 된 지시 수행을 평가하기 위해 11 개 언어와 9 가지 태스크로 구성된 다국어 구두 프롬프트 데이터셋 'DoWhatISay(DOWIS)'를 소개하고, 기존 텍스트 프롬프트보다 구두 프롬프트의 성능이 낮음을 보여주며 특히 음성 출력이 필요한 태스크에서 그 격차가 좁혀진다는 사실을 규명했습니다.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues2026-03-11💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

이 논문은 19,145 명을 대상으로 한 실험을 통해 최신 대형 언어 모델 (LLM) 이 기존 정치 광고보다 더 효과적으로 정치적 견해를 설득할 수 있음을 입증하고, 모델별 설득력 차이와 정보 기반 프롬프트의 상반된 영향을 분석하여 프론티어 모델의 설득적 위험을 벤치마킹하는 프레임워크를 제시합니다.

Zhongren Chen, Joshua Kalla, Quan Le2026-03-11💬 cs.CL

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

이 논문은 연속적인 LLM 파인튜닝 중 발생하는 catastrophic forgetting 을 완화하면서도 빠른 적응을 유지하기 위해, 샘플 수준의 기억 강도를 추정하고 적응형 간격으로 재연습을 스케줄링하는 메모리 인식 적응형 재연습 프레임워크인 MSSR 을 제안하고 다양한 벤치마크에서 기존 방법들을 능가하는 성능을 입증합니다.

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan Zha2026-03-11🤖 cs.AI

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

이 논문은 단순한 사실적 질문에서도 추론이 '계산 버퍼'와 '사실적 프라임' 메커니즘을 통해 모델의 암기 지식 회상을 촉진하지만, 중간 단계의 환각은 최종 답변의 오류로 이어질 수 있음을 규명하고 환각 없는 추론 경로를 우선시함으로써 정확도를 향상시킬 수 있음을 보여줍니다.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan Herzig2026-03-11💬 cs.CL

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

본 논문은 FUSE(Foundations, Unification Strategies, Scenarios, Ecosystem) 분류 체계를 통해 대규모 언어 모델 시대의 모델 병합 기술의 이론적 기반, 알고리즘적 접근법, 응용 분야 및 생태계를 체계적으로 조명하고 향후 연구 방향을 제시하는 포괄적인 조사 연구입니다.

Mingyang Song, Mao Zheng2026-03-11💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

이 논문은 기존 연구와 달리 인간과 달리 대형 언어 모델 (LLM) 은 추론 과정을 거칠수록 정직해지며, 이는 추론 내용 자체보다는 정직한 답변이 속한 표현 공간이 기만적인 영역보다 더 안정적이기 때문임을 규명했습니다.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja Filippova2026-03-11🤖 cs.AI

CREATE: Testing LLMs for Associative Creativity

이 논문은 개념 간의 독창적이고 의미 있는 연결을 생성하는 '연상적 창의성'을 평가하기 위해 CREATE 라는 새로운 벤치마크를 소개하고, 최첨단 모델들의 성능을 분석하여 사고 모델이 항상 더 효과적이지는 않으며 창의적 프롬프팅 기법의 개선 효과도 제한적임을 보여줍니다.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett2026-03-11💬 cs.CL

A Survey of Large Language Models

본 논문은 대규모 언어 모델 (LLM) 의 배경, 주요 발견 및 핵심 기술 (사전 학습, 적응 튜닝, 활용, 능력 평가) 을 개괄하고, 관련 자원과 향후 과제를 논의하는 포괄적인 조사를 제공합니다.

Wayne Xin Zhao, Kun Zhou, Junyi Li + 19 more2026-03-10💬 cs.CL

Agent-OM: Leveraging LLM Agents for Ontology Matching

본 논문은 온톨로지 매칭의 복잡하고 퓨샷 (few-shot) 작업에서 기존 최첨단 시스템보다 뛰어난 성능을 보이는 새로운 에이전트 기반 프레임워크인 'Agent-OM'을 제안하고 그 유효성을 입증합니다.

Zhangcheng Qiang, Weiqing Wang, Kerry Taylor2026-03-10💬 cs.CL

Llama-Mob: Instruction-Tuning Llama-3-8B Excels in City-Scale Mobility Prediction

이 논문은 일본 4 개 대도시의 대규모 이동 데이터를 기반으로 Llama-3-8B 모델을 지시 미세조정하여 15 일 이상의 장기 도시 이동성을 예측하는 'Llama-Mob'을 제안하고, 기존 최첨단 기법보다 뛰어난 성능과 단일 도시 학습으로도 다른 도시에 적용 가능한 강력한 제로샷 일반화 능력을 입증했습니다.

Peizhi Tang, Chuang Yang, Tong Xing, Xiaohang Xu, Jiayi Xu, Renhe Jiang, Kaoru Sezaki2026-03-10💬 cs.CL

Speaker effects in language comprehension: An integrative model of language and speaker processing

이 논문은 화자의 정체성이 하향식 기대와 상향식 지각의 상호작용을 통해 언어 이해에 영향을 미친다는 통합 모델을 제시하고, 화자 고유성과 인구통계학적 효과를 구분하며 인공지능 화자 연구의 필요성을 강조합니다.

Hanlin Wu, Zhenguang G. Cai2026-03-10💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

이 논문은 자연어 처리 모델의 지속적 학습 중 발생하는 catastrophic forgetting 문제를 해결하기 위해, 국소적 업데이트를 통해 효율적인 학습을 가능하게 하는 이산 키 - 값 병목 (DKVB) 구조를 제안하고 다양한 시나리오에서 기존 방법 대비 우수한 성능과 낮은 계산 비용을 입증합니다.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar Scherp2026-03-10💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

이 논문은 다양한 멀티모달 작업에 적용 가능한 참조 없는 포괄적 평가 지표인 HarmonicEval 과 이를 검증하기 위한 18,000 개의 인간 평가 데이터로 구성된 MMHE 벤치마크를 제안하여, 기존 지표보다 인간 판단과의 상관관계가 높고 세부 기준별 점수를 제공하는 것을 입증합니다.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

이 논문은 프롬프트 튜닝에서 발생하는 임베딩 붕괴 현상의 중요성을 탐구하고, 제어 가능한 임베딩 사전 (priors) 이 모델 성능에 미치는 영향과 활성화 공간 내 태스크별 클러스터링 패턴을 분석하여 모델의 일반화 능력에 대한 새로운 통찰을 제시합니다.

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal Kadamba2026-03-10🤖 cs.LG

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

이 논문은 다중 모델 앙상블의 높은 계산 비용과 블랙박스 모델 적용의 한계를 극복하기 위해, 단일 모델을 활용하여 피벗 번역을 통해 생성된 후보들을 사후 집계하는 새로운 앙상블 프레임워크를 제안하고, 이를 통해 저자원 언어 쌍의 번역 품질을 획기적으로 향상시켰음을 보여줍니다.

Seokjin Oh, Keonwoong Noh, Woohwan Jung2026-03-10💬 cs.CL

GRADIEND: Feature Learning within Neural Networks Exemplified through Biases

이 논문은 모델의 기울기를 활용하여 사회적 편향 정보를 인코딩하는 새로운 인코더-디코더 접근법인 GRADIEND를 제안함으로써, 모델의 특정 가중치를 식별하고 수정하여 다른 능력을 유지하면서 편향을 제거할 수 있음을 보여줍니다.

Jonathan Drechsel, Steffen Herbold2026-03-10🤖 cs.LG

← 이전 다음 →