cs.CL 편의 논문 | Gist.Science

Preference Packing: Efficient Preference Optimization for Large Language Models

이 논문은 동일한 입력 프롬프트에 대한 서로 다른 응답을 사용하는 선호도 최적화 (DPO 등) 훈련 시 중복 프롬프트의 어텐션 연산과 KV 캐시 메모리 사용을 줄여 훈련 시간을 최대 37% 단축하고 기존 최적화 기법과 결합 시 3.22 배의 속도 향상을 이루는 '선호도 패킹 (Preference Packing)' 기법을 제안합니다.

Jaekyung Cho2026-03-02💬 cs.CL

ARGUS: Seeing the Influence of Narrative Features on Persuasion in Argumentative Texts

이 논문은 온라인 논쟁에서 서사적 요소가 설득에 미치는 영향을 분석하기 위해 'ARGUS'라는 새로운 프레임워크와 'ChangeMyView' 코퍼스를 소개하며, 이를 통해 설득 성공에 영향을 미치는 구체적인 서사적 특성을 규명합니다.

Sara Nabhani, Federico Pianzola, Khalid Al-Khatib + 1 more2026-03-02💬 cs.CL

Recycling Failures: Salvaging Exploration in RLVR via Fine-Grained Off-Policy Guidance

이 논문은 RLVR 환경에서 부분적으로 올바른 추론 경로를 폐기하지 않고 프로세스 보상 모델을 활용해 첫 번째 오류 단계를 정밀하게 수정함으로써 탐색 다양성을 확보하고 수학 및 일반화 추론 성능을 획기적으로 개선하는 새로운 프레임워크 'SCOPE'를 제안합니다.

Yanwei Ren, Haotian Zhang, Likang Xiao + 6 more2026-03-02💬 cs.CL

Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification

이 논문은 비전-언어 모델이 생성한 방사선 보고서의 논리적 일관성을 보장하기 위해, 자유 텍스트를 구조화된 명제로 자동 형식화하고 SMT 솔버를 활용해 임상적 추론의 오류를 검증하는 신경기호적 검증 프레임워크를 제안합니다.

Vikash Singh, Debargha Ganguly, Haotian Yu + 5 more2026-03-02💬 cs.CL

Terminology Rarity Predicts Catastrophic Failure in LLM Translation of Low-Resource Ancient Languages: Evidence from Ancient Greek

이 연구는 고대 그리스어 전문 텍스트 번역에서 LLM 의 성능이 전문 용어의 희소성에 의해 결정되며, 특히 미번역된 약학 텍스트에서 용어 빈도가 번역 실패를 강력하게 예측한다는 것을 인간 평가와 자동 지표를 통해 입증했습니다.

James L. Zainaldin, Cameron Pattison, Manuela Marai + 2 more2026-03-02💬 cs.CL

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation

이 논문은 RAG 시스템에서 복잡한 시각 문서 처리 시 발생하는 과도한 컨텍스트와 할루시네이션 문제를 해결하기 위해, 문서 레이아웃을 분석하여 필요한 영역만 동적으로 추출하는 새로운 패러다임인 AgenticOCR 을 제안합니다.

Zhengren Wang, Dongsheng Ma, Huaping Zhong + 4 more2026-03-02💬 cs.CL

ArgLLM-App: An Interactive System for Argumentative Reasoning with Large Language Models

이 논문은 인간의 의사결정에 대한 신뢰할 수 있는 설명과 논쟁을 가능하게 하는 대규모 언어 모델 기반의 논증적 추론 시스템인 'ArgLLM-App'을 소개하며, 이는 시각화 기능과 외부 신뢰 출처 연동, 모듈형 설계를 통해 사용자와의 상호작용을 지원합니다.

Adam Dejl, Deniz Gorur, Francesca Toni2026-03-02💬 cs.CL

Task-Centric Acceleration of Small-Language Models

이 논문은 SLM 의 추론 효율성을 높이기 위해 파인튜닝 시 토크나이저 어휘를 확장하는 TASC-ft 와 추가 학습 없이 작업별 n-gram 기반의 추측적 디코딩을 수행하는 TASC-spec 로 구성된 TASC 프레임워크를 제안합니다.

Dor Tsur, Sharon Adar, Ran Levy2026-03-02💬 cs.CL

MT-PingEval: Evaluating Multi-Turn Collaboration with Private Information Games

이 논문은 비공개 정보를 공유하는 협력 게임을 통해 다중 턴 상호작용을 평가하는 'MT-PingEval'을 제안하며, 최신 언어 모델이 비대화식 기준보다 협력적 대화를 통해 성능을 향상시키지 못하고 인간보다 일관성 있는 대화와 토큰 효율성을 보여주지 못한다는 사실을 규명했습니다.

Jacob Eisenstein, Fantine Huot, Adam Fisch + 2 more2026-03-02💬 cs.CL

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

이 논문은 외부 도구나 추가 학습 없이 MLLM 의 내부 모달리티 특징만을 활용하여 샘플 응답의 불일치 조정 시맨틱 볼륨을 계산함으로써 다양한 모달리티와 작업에서 기존 방법보다 우수한 불확실성 정량화 성능을 보이는 새로운 프레임워크인 UMPIRE 를 제안합니다.

Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin + 1 more2026-03-02💬 cs.CL

Controllable Reasoning Models Are Private Thinkers

이 논문은 추론 과정의 지시 따르기 능력을 향상시키는 파인튜닝과 추론 및 답변 생성을 분리하는 전략을 통해, 민감한 정보 유출을 방지하면서도 추론 모델의 프라이버시 보호 성능을 획기적으로 개선할 수 있음을 보여줍니다.

Haritz Puerto, Haonan Li, Xudong Han + 2 more2026-03-02💬 cs.CL

Taming Momentum: Rethinking Optimizer States Through Low-Rank Approximation

이 논문은 Adam 및 Muon 같은 최적화기의 메모리 오버헤드를 줄이기 위해 모멘텀 행렬을 저랭크 부분 공간으로 분해하는 새로운 최적화기 LoRA-Pre 를 제안하고, 사전 학습과 미세 조정 모두에서 기존 방법보다 뛰어난 성능과 메모리 효율성을 입증했습니다.

Zhengbo Wang, Jian Liang, Ran He + 2 more2026-03-02💬 cs.CL

Do LLMs Benefit From Their Own Words?

이 논문은 대화 기록에서 AI 의 이전 응답을 제거하거나 선택적으로 필터링하는 것이 오히려 응답 품질을 향상시키고 메모리 소비를 줄일 수 있음을 실증적으로 보여줍니다.

Jenny Y. Huang, Leshem Choshen, Ramon Astudillo + 2 more2026-03-02💬 cs.CL

DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science

이 논문은 기계 학습 모델링과 데이터 과학 지시 따르기 능력을 정확하게 평가하고 대규모 학습 데이터를 제공하는 새로운 벤치마크인 DARE-bench 를 제안하며, 이를 통해 기존 모델의 한계를 드러내고 파인튜닝을 통한 성능 향상 가능성을 입증합니다.

Fan Shu, Yite Wang, Ruofan Wu + 4 more2026-03-02💬 cs.CL

Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models

이 논문은 멀티모달 대규모 언어 모델 (MLLM) 에서 불필요한 멀티헤드 어텐션을 식별하여 건너뛰는 '효율적 어텐션 스킵핑 (EAS)' 기법과 정보 전달 어댑터를 제안함으로써, 파라미터 효율성을 유지하면서 추론 속도를 획기적으로 향상시킨다는 것을 보여줍니다.

Qiong Wu, Weihao Ye, Yiyi Zhou + 2 more2026-02-27💬 cs.CL

RLSF: Fine-tuning LLMs via Symbolic Feedback

이 논문은 기호적 추론 도구가 생성한 세밀한 피드백을 활용하여 대규모 언어 모델 (LLM) 을 미세 조정하는 새로운 패러다임인 '기호 피드백을 통한 강화 학습 (RLSF)'을 제안하며, 이를 통해 기존 방법론보다 우수한 성능을 보이고 상대적으로 작은 모델로도 거대 규모의 폐쇄형 모델을 능가할 수 있음을 입증합니다.

Piyush Jha, Prithwish Jana, Pranavkrishna Suresh + 2 more2026-02-27🤖 cs.AI

Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions

이 논문은 LLM 을 평가자로 활용할 때 상세한 프롬프트 지시사항이 인간 평가와의 정렬에 미치는 영향이 제한적이며, 때로는 프롬프팅보다 모델의 퍼플렉시티가 텍스트 품질 평가에서 인간 판단과 더 잘 일치할 수 있음을 규명했습니다.

Bhuvanashree Murugadoss, Christian Poelitz, Ian Drosos + 5 more2026-02-27💬 cs.CL

ANCHOLIK-NER: A Benchmark Dataset for Bangla Regional Named Entity Recognition

이 논문은 바리살, 치타공, 미멘싱, 노아칼리, 실렛 등 5 개 방언의 Bangla 지역 명명 개체 인식 (NER) 을 위한 최초의 벤치마크 데이터셋인 ANCHOLIK-NER 을 소개하고, 이를 기반으로 다양한 트랜스포머 모델의 성능을 평가하여 방언별 인식 과제를 규명했습니다.

Bidyarthi Paul, Faika Fairuj Preotee, Shuvashis Sarker + 5 more2026-02-27💬 cs.CL

Evaluating the Diversity and Quality of LLM Generated Content

이 논문은 선호도 튜닝 (RLHF 등) 을 거친 LLM 이 기존 지표로는 다양성이 낮아 보이지만 품질 기준을 충족하는 '유효 의미적 다양성' 측면에서는 SFT 나 베이스 모델보다 우수함을 증명하고, 모델 크기와 파라미터 효율성 간의 트레이드오프를 분석하여 고품질 다양성이 필요한 응용 분야에 대한 실용적 시사점을 제시합니다.

Alexander Shypula, Shuo Li, Botong Zhang + 3 more2026-02-27💬 cs.CL

Cost-of-Pass: An Economic Framework for Evaluating Language Models

이 논문은 정확도와 추론 비용을 결합한 '패스 비용 (cost-of-pass)'이라는 새로운 경제학적 프레임워크를 제시하여, 다양한 언어 모델의 생산성을 평가하고 혁신과 추론 기법이 비용 효율성에 미치는 영향을 분석합니다.

Mehmet Hamza Erol, Batu El, Mirac Suzgun + 2 more2026-02-27💬 cs.CL

← 이전 다음 →