cs.CL 편의 논문 | Gist.Science

Controllable Reasoning Models Are Private Thinkers

이 논문은 추론 과정의 지시 따르기 능력을 향상시키는 파인튜닝과 추론 및 답변 생성을 분리하는 전략을 통해, 민감한 정보 유출을 방지하면서도 추론 모델의 프라이버시 보호 성능을 획기적으로 개선할 수 있음을 보여줍니다.

Haritz Puerto, Haonan Li, Xudong Han + 2 more2026-03-02💬 cs.CL

Taming Momentum: Rethinking Optimizer States Through Low-Rank Approximation

이 논문은 Adam 및 Muon 같은 최적화기의 메모리 오버헤드를 줄이기 위해 모멘텀 행렬을 저랭크 부분 공간으로 분해하는 새로운 최적화기 LoRA-Pre 를 제안하고, 사전 학습과 미세 조정 모두에서 기존 방법보다 뛰어난 성능과 메모리 효율성을 입증했습니다.

Zhengbo Wang, Jian Liang, Ran He + 2 more2026-03-02💬 cs.CL

Do LLMs Benefit From Their Own Words?

이 논문은 대화 기록에서 AI 의 이전 응답을 제거하거나 선택적으로 필터링하는 것이 오히려 응답 품질을 향상시키고 메모리 소비를 줄일 수 있음을 실증적으로 보여줍니다.

Jenny Y. Huang, Leshem Choshen, Ramon Astudillo + 2 more2026-03-02💬 cs.CL

DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science

이 논문은 기계 학습 모델링과 데이터 과학 지시 따르기 능력을 정확하게 평가하고 대규모 학습 데이터를 제공하는 새로운 벤치마크인 DARE-bench 를 제안하며, 이를 통해 기존 모델의 한계를 드러내고 파인튜닝을 통한 성능 향상 가능성을 입증합니다.

Fan Shu, Yite Wang, Ruofan Wu + 4 more2026-03-02💬 cs.CL

Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models

이 논문은 멀티모달 대규모 언어 모델 (MLLM) 에서 불필요한 멀티헤드 어텐션을 식별하여 건너뛰는 '효율적 어텐션 스킵핑 (EAS)' 기법과 정보 전달 어댑터를 제안함으로써, 파라미터 효율성을 유지하면서 추론 속도를 획기적으로 향상시킨다는 것을 보여줍니다.

Qiong Wu, Weihao Ye, Yiyi Zhou + 2 more2026-02-27💬 cs.CL

RLSF: Fine-tuning LLMs via Symbolic Feedback

이 논문은 기호적 추론 도구가 생성한 세밀한 피드백을 활용하여 대규모 언어 모델 (LLM) 을 미세 조정하는 새로운 패러다임인 '기호 피드백을 통한 강화 학습 (RLSF)'을 제안하며, 이를 통해 기존 방법론보다 우수한 성능을 보이고 상대적으로 작은 모델로도 거대 규모의 폐쇄형 모델을 능가할 수 있음을 입증합니다.

Piyush Jha, Prithwish Jana, Pranavkrishna Suresh + 2 more2026-02-27🤖 cs.AI

Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions

이 논문은 LLM 을 평가자로 활용할 때 상세한 프롬프트 지시사항이 인간 평가와의 정렬에 미치는 영향이 제한적이며, 때로는 프롬프팅보다 모델의 퍼플렉시티가 텍스트 품질 평가에서 인간 판단과 더 잘 일치할 수 있음을 규명했습니다.

Bhuvanashree Murugadoss, Christian Poelitz, Ian Drosos + 5 more2026-02-27💬 cs.CL

ANCHOLIK-NER: A Benchmark Dataset for Bangla Regional Named Entity Recognition

이 논문은 바리살, 치타공, 미멘싱, 노아칼리, 실렛 등 5 개 방언의 Bangla 지역 명명 개체 인식 (NER) 을 위한 최초의 벤치마크 데이터셋인 ANCHOLIK-NER 을 소개하고, 이를 기반으로 다양한 트랜스포머 모델의 성능을 평가하여 방언별 인식 과제를 규명했습니다.

Bidyarthi Paul, Faika Fairuj Preotee, Shuvashis Sarker + 5 more2026-02-27💬 cs.CL

Evaluating the Diversity and Quality of LLM Generated Content

이 논문은 선호도 튜닝 (RLHF 등) 을 거친 LLM 이 기존 지표로는 다양성이 낮아 보이지만 품질 기준을 충족하는 '유효 의미적 다양성' 측면에서는 SFT 나 베이스 모델보다 우수함을 증명하고, 모델 크기와 파라미터 효율성 간의 트레이드오프를 분석하여 고품질 다양성이 필요한 응용 분야에 대한 실용적 시사점을 제시합니다.

Alexander Shypula, Shuo Li, Botong Zhang + 3 more2026-02-27💬 cs.CL

Cost-of-Pass: An Economic Framework for Evaluating Language Models

이 논문은 정확도와 추론 비용을 결합한 '패스 비용 (cost-of-pass)'이라는 새로운 경제학적 프레임워크를 제시하여, 다양한 언어 모델의 생산성을 평가하고 혁신과 추론 기법이 비용 효율성에 미치는 영향을 분석합니다.

Mehmet Hamza Erol, Batu El, Mirac Suzgun + 2 more2026-02-27💬 cs.CL

Can LLMs Simulate Human Behavioral Variability? A Case Study in the Phonemic Fluency Task

본 연구는 34 개의 다양한 대형 언어 모델 (LLM) 을 음소 유창성 과제에 적용한 결과, 일부 모델이 인간 평균을 모방할 수는 있으나 인간의 행동적 다양성과 회상 구조를 재현하지 못해 LLM 을 인간 인지 및 행동 시뮬레이션 도구로 사용하는 데에는 근본적인 한계가 있음을 시사합니다.

Mengyang Qiu, Zoe Brisebois, Siena Sun2026-02-27💬 cs.CL

Knowledge Fusion of Large Language Models Via Modular SkillPacks

이 논문은 이질적인 대규모 언어 모델 간의 효율적인 지식 전이와 융합을 위해 소스 모델의 능력을 'SkillPack' 형식으로 압축하여 대상 모델에 주입하는 새로운 방법론인 GraftLLM 을 제안하고, 이를 통해 기존 기법보다 우수한 성능과 망각 없는 지속 학습을 달성함을 보여줍니다.

Guodong Du, Zhuo Li, Xuanning Zhou + 9 more2026-02-27💬 cs.CL

What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

이 논문은 유해 콘텐츠 제거를 위한 데이터 필터링 전략이 취약 계층의 표현 부족을 심화시키는 부작용을 초래할 수 있음을 실험적 벤치마크를 통해 체계적으로 평가하고 있음을 보여줍니다.

Marco Antonio Stranisci, Christian Hardmeier2025-02-17💬 cs.CL

← 이전

cs.CL