Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

이 논문은 긴 문맥 추론을 위한 체인 오브 에이전트 (CoA) 프레임워크에서 정보 손실을 줄이고 정확도를 향상시키기 위해, 강한 상관관계를 가진 청크를 우선시하는 Chow-Liu 트리를 학습하여 청크 처리 순서를 최적화하는 방법을 제안합니다.

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. C2026-03-11💬 cs.CL

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

이 논문은 말로 된 지시 수행을 평가하기 위해 11 개 언어와 9 가지 태스크로 구성된 다국어 구두 프롬프트 데이터셋 'DoWhatISay(DOWIS)'를 소개하고, 기존 텍스트 프롬프트보다 구두 프롬프트의 성능이 낮음을 보여주며 특히 음성 출력이 필요한 태스크에서 그 격차가 좁혀진다는 사실을 규명했습니다.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues2026-03-11💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

이 논문은 19,145 명을 대상으로 한 실험을 통해 최신 대형 언어 모델 (LLM) 이 기존 정치 광고보다 더 효과적으로 정치적 견해를 설득할 수 있음을 입증하고, 모델별 설득력 차이와 정보 기반 프롬프트의 상반된 영향을 분석하여 프론티어 모델의 설득적 위험을 벤치마킹하는 프레임워크를 제시합니다.

Zhongren Chen, Joshua Kalla, Quan Le2026-03-11💬 cs.CL

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

이 논문은 연속적인 LLM 파인튜닝 중 발생하는 catastrophic forgetting 을 완화하면서도 빠른 적응을 유지하기 위해, 샘플 수준의 기억 강도를 추정하고 적응형 간격으로 재연습을 스케줄링하는 메모리 인식 적응형 재연습 프레임워크인 MSSR 을 제안하고 다양한 벤치마크에서 기존 방법들을 능가하는 성능을 입증합니다.

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan Zha2026-03-11🤖 cs.AI

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

이 논문은 단순한 사실적 질문에서도 추론이 '계산 버퍼'와 '사실적 프라임' 메커니즘을 통해 모델의 암기 지식 회상을 촉진하지만, 중간 단계의 환각은 최종 답변의 오류로 이어질 수 있음을 규명하고 환각 없는 추론 경로를 우선시함으로써 정확도를 향상시킬 수 있음을 보여줍니다.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan Herzig2026-03-11💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

이 논문은 기존 연구와 달리 인간과 달리 대형 언어 모델 (LLM) 은 추론 과정을 거칠수록 정직해지며, 이는 추론 내용 자체보다는 정직한 답변이 속한 표현 공간이 기만적인 영역보다 더 안정적이기 때문임을 규명했습니다.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja Filippova2026-03-11🤖 cs.AI

CREATE: Testing LLMs for Associative Creativity

이 논문은 개념 간의 독창적이고 의미 있는 연결을 생성하는 '연상적 창의성'을 평가하기 위해 CREATE 라는 새로운 벤치마크를 소개하고, 최첨단 모델들의 성능을 분석하여 사고 모델이 항상 더 효과적이지는 않으며 창의적 프롬프팅 기법의 개선 효과도 제한적임을 보여줍니다.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett2026-03-11💬 cs.CL

Llama-Mob: Instruction-Tuning Llama-3-8B Excels in City-Scale Mobility Prediction

이 논문은 일본 4 개 대도시의 대규모 이동 데이터를 기반으로 Llama-3-8B 모델을 지시 미세조정하여 15 일 이상의 장기 도시 이동성을 예측하는 'Llama-Mob'을 제안하고, 기존 최첨단 기법보다 뛰어난 성능과 단일 도시 학습으로도 다른 도시에 적용 가능한 강력한 제로샷 일반화 능력을 입증했습니다.

Peizhi Tang, Chuang Yang, Tong Xing, Xiaohang Xu, Jiayi Xu, Renhe Jiang, Kaoru Sezaki2026-03-10💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

이 논문은 자연어 처리 모델의 지속적 학습 중 발생하는 catastrophic forgetting 문제를 해결하기 위해, 국소적 업데이트를 통해 효율적인 학습을 가능하게 하는 이산 키 - 값 병목 (DKVB) 구조를 제안하고 다양한 시나리오에서 기존 방법 대비 우수한 성능과 낮은 계산 비용을 입증합니다.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar Scherp2026-03-10💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

이 논문은 다양한 멀티모달 작업에 적용 가능한 참조 없는 포괄적 평가 지표인 HarmonicEval 과 이를 검증하기 위한 18,000 개의 인간 평가 데이터로 구성된 MMHE 벤치마크를 제안하여, 기존 지표보다 인간 판단과의 상관관계가 높고 세부 기준별 점수를 제공하는 것을 입증합니다.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

이 논문은 프롬프트 튜닝에서 발생하는 임베딩 붕괴 현상의 중요성을 탐구하고, 제어 가능한 임베딩 사전 (priors) 이 모델 성능에 미치는 영향과 활성화 공간 내 태스크별 클러스터링 패턴을 분석하여 모델의 일반화 능력에 대한 새로운 통찰을 제시합니다.

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal Kadamba2026-03-10🤖 cs.LG

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

이 논문은 다중 모델 앙상블의 높은 계산 비용과 블랙박스 모델 적용의 한계를 극복하기 위해, 단일 모델을 활용하여 피벗 번역을 통해 생성된 후보들을 사후 집계하는 새로운 앙상블 프레임워크를 제안하고, 이를 통해 저자원 언어 쌍의 번역 품질을 획기적으로 향상시켰음을 보여줍니다.

Seokjin Oh, Keonwoong Noh, Woohwan Jung2026-03-10💬 cs.CL