Do What I Say: A Spoken Prompt Dataset for Instruction-Following

이 논문은 말로 된 지시 수행을 평가하기 위해 11 개 언어와 9 가지 태스크로 구성된 다국어 구두 프롬프트 데이터셋 'DoWhatISay(DOWIS)'를 소개하고, 기존 텍스트 프롬프트보다 구두 프롬프트의 성능이 낮음을 보여주며 특히 음성 출력이 필요한 태스크에서 그 격차가 좁혀진다는 사실을 규명했습니다.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan NiehuesWed, 11 Ma💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

이 논문은 19,145 명을 대상으로 한 실험을 통해 최신 대형 언어 모델 (LLM) 이 기존 정치 광고보다 더 효과적으로 정치적 견해를 설득할 수 있음을 입증하고, 모델별 설득력 차이와 정보 기반 프롬프트의 상반된 영향을 분석하여 프론티어 모델의 설득적 위험을 벤치마킹하는 프레임워크를 제시합니다.

Zhongren Chen, Joshua Kalla, Quan LeWed, 11 Ma💬 cs.CL

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

이 논문은 연속적인 LLM 파인튜닝 중 발생하는 catastrophic forgetting 을 완화하면서도 빠른 적응을 유지하기 위해, 샘플 수준의 기억 강도를 추정하고 적응형 간격으로 재연습을 스케줄링하는 메모리 인식 적응형 재연습 프레임워크인 MSSR 을 제안하고 다양한 벤치마크에서 기존 방법들을 능가하는 성능을 입증합니다.

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan ZhaWed, 11 Ma🤖 cs.AI

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

이 논문은 단순한 사실적 질문에서도 추론이 '계산 버퍼'와 '사실적 프라임' 메커니즘을 통해 모델의 암기 지식 회상을 촉진하지만, 중간 단계의 환각은 최종 답변의 오류로 이어질 수 있음을 규명하고 환각 없는 추론 경로를 우선시함으로써 정확도를 향상시킬 수 있음을 보여줍니다.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan HerzigWed, 11 Ma💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

이 논문은 기존 연구와 달리 인간과 달리 대형 언어 모델 (LLM) 은 추론 과정을 거칠수록 정직해지며, 이는 추론 내용 자체보다는 정직한 답변이 속한 표현 공간이 기만적인 영역보다 더 안정적이기 때문임을 규명했습니다.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja FilippovaWed, 11 Ma🤖 cs.AI

CREATE: Testing LLMs for Associative Creativity

이 논문은 개념 간의 독창적이고 의미 있는 연결을 생성하는 '연상적 창의성'을 평가하기 위해 CREATE 라는 새로운 벤치마크를 소개하고, 최첨단 모델들의 성능을 분석하여 사고 모델이 항상 더 효과적이지는 않으며 창의적 프롬프팅 기법의 개선 효과도 제한적임을 보여줍니다.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg DurrettWed, 11 Ma💬 cs.CL

Llama-Mob: Instruction-Tuning Llama-3-8B Excels in City-Scale Mobility Prediction

이 논문은 일본 4 개 대도시의 대규모 이동 데이터를 기반으로 Llama-3-8B 모델을 지시 미세조정하여 15 일 이상의 장기 도시 이동성을 예측하는 'Llama-Mob'을 제안하고, 기존 최첨단 기법보다 뛰어난 성능과 단일 도시 학습으로도 다른 도시에 적용 가능한 강력한 제로샷 일반화 능력을 입증했습니다.

Peizhi Tang, Chuang Yang, Tong Xing, Xiaohang Xu, Jiayi Xu, Renhe Jiang, Kaoru SezakiTue, 10 Ma💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

이 논문은 자연어 처리 모델의 지속적 학습 중 발생하는 catastrophic forgetting 문제를 해결하기 위해, 국소적 업데이트를 통해 효율적인 학습을 가능하게 하는 이산 키 - 값 병목 (DKVB) 구조를 제안하고 다양한 시나리오에서 기존 방법 대비 우수한 성능과 낮은 계산 비용을 입증합니다.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar ScherpTue, 10 Ma💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

이 논문은 다양한 멀티모달 작업에 적용 가능한 참조 없는 포괄적 평가 지표인 HarmonicEval 과 이를 검증하기 위한 18,000 개의 인간 평가 데이터로 구성된 MMHE 벤치마크를 제안하여, 기존 지표보다 인간 판단과의 상관관계가 높고 세부 기준별 점수를 제공하는 것을 입증합니다.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa InoueTue, 10 Ma💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

이 논문은 프롬프트 튜닝에서 발생하는 임베딩 붕괴 현상의 중요성을 탐구하고, 제어 가능한 임베딩 사전 (priors) 이 모델 성능에 미치는 영향과 활성화 공간 내 태스크별 클러스터링 패턴을 분석하여 모델의 일반화 능력에 대한 새로운 통찰을 제시합니다.

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal KadambaTue, 10 Ma🤖 cs.LG

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

이 논문은 다중 모델 앙상블의 높은 계산 비용과 블랙박스 모델 적용의 한계를 극복하기 위해, 단일 모델을 활용하여 피벗 번역을 통해 생성된 후보들을 사후 집계하는 새로운 앙상블 프레임워크를 제안하고, 이를 통해 저자원 언어 쌍의 번역 품질을 획기적으로 향상시켰음을 보여줍니다.

Seokjin Oh, Keonwoong Noh, Woohwan JungTue, 10 Ma💬 cs.CL

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

이 논문은 LLM 의 하류 작업 성능 예측 정확도를 높이기 위해 작업 난이도 특성에 따라 클러스터링하는 COD 프레임워크를 제안하고, 이를 통해 예측 가능한 하위 집단의 성능을 전체 평가 세트로 외삽하여 70B 파라미터 모델에서 평균 1.55% 의 낮은 예측 오차를 달성했음을 보여줍니다.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang LiTue, 10 Ma🤖 cs.LG

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

이 논문은 RRAM 의 노이즈로 인한 성능 저하를 해결하기 위해 노이즈가 없는 SRAM 에 LoRA 분기를 배치하고 노이즈 환경에 강인하도록 학습하는 'HaLoRA'를 제안하여, 하이브리드 CIM 아키텍처에서 에너지 효율성을 극대화하면서도 LLM 의 추론 정확도를 유지하거나 향상시키는 방법을 제시합니다.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

이 논문은 고비용의 수동 단계 주석이 필요 없이 예측 엔트로피를 기반으로 논리적 전환점을 자동으로 식별하여 효율적인 과정 보상 모델 (EDU-PRM) 을 제안하며, 적은 학습 데이터로도 최첨단 성능을 달성하고 추론 정확도를 높이며 토큰 사용량을 대폭 줄인다는 결과를 보여줍니다.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong LiTue, 10 Ma🤖 cs.LG