Do What I Say: A Spoken Prompt Dataset for Instruction-Following

本論文は、音声大規模言語モデル(SLLM)の現実的な評価を可能にする多言語・多タスクの音声指示データセット「DoWhatISay (DOWIS)」を提案し、テキスト指示に比べ音声指示の性能が特に低資源言語やクロスリンガル設定で劣る傾向がある一方で、音声出力タスクではその差が縮まることを示した。

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan NiehuesWed, 11 Ma💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

この論文は、19,145 人の参加者による大規模調査を通じて、Claude や GPT などの最先端大規模言語モデル(LLM)が従来の政治広告よりも効果的に世論を形成しうることを示し、モデル間の説得力の差異や情報提示プロンプトの影響の多様性を明らかにするとともに、説得リスクを評価する新たな枠組みを提案しています。

Zhongren Chen, Joshua Kalla, Quan LeWed, 11 Ma💬 cs.CL

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

この論文は、逐次学習における大規模言語モデルの忘却を抑制しつつ適応性を維持するため、サンプルごとの記憶強度を推定し適応的にリハーサルをスケジュールする新しい経験再生フレームワーク「MSSR」を提案し、広範な実験で最先端の手法を上回る性能を実証したものである。

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan ZhaWed, 11 Ma🤖 cs.AI

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

この論文は、複雑な推論が不要な単純な事実質問においても、推論プロセスが「計算バッファ効果」と「事実的プライミング」という二つのメカニズムを通じてパラメトリック知識の想起を促進する一方で、中間事実の幻覚が最終回答の誤りを招くリスクがあることを明らかにし、幻覚を含まない推論経路を優先することでモデルの精度向上が可能であることを示しています。

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan HerzigWed, 11 Ma💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

この論文は、人間とは異なり大規模言語モデルにおいて推論プロセスが誠実さを高める効果をもたらすことを示し、その理由として欺瞞的な領域が不安定であり、推論による表現空間の探索がより安定した誠実なデフォルト状態へとモデルを導くことを発見したことを報告しています。

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja FilippovaWed, 11 Ma🤖 cs.AI

CREATE: Testing LLMs for Associative Creativity

この論文は、概念間の新颖かつ意味のあるつながりを生み出す「連想推論」能力を評価するためのベンチマーク「CREATE」を提案し、最先端モデルの創造的有用性を測定するとともに、思考モデルや創造的プロンプトの限界を示すことで、モデルの創造性向上に向けた新たな手法開発の基盤を提供しています。

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg DurrettWed, 11 Ma💬 cs.CL

Llama-Mob: Instruction-Tuning Llama-3-8B Excels in City-Scale Mobility Prediction

この論文は、大規模言語モデル Llama-3-8B を指示チューニングした「Llama-Mob」を提案し、複数の都市における大規模な移動データを用いた検証により、従来の手法を凌駕する長期的な都市規模の移動予測能力と、限られたデータからの高いゼロショット汎化性能を実証したものです。

Peizhi Tang, Chuang Yang, Tong Xing, Xiaohang Xu, Jiayi Xu, Renhe Jiang, Kaoru SezakiTue, 10 Ma💬 cs.CL

Speaker effects in language comprehension: An integrative model of language and speaker processing

この論文は、話者の同一性が言語理解に与える影響を、音響的エピソード記憶に基づくボトムアップ処理と話者モデルに基づくトップダウン処理の相互作用として捉え、これらを統合した確率的処理モデルを提案し、AI アgent を含む新たな社会的対話者への応用を促すものである。

Hanlin Wu, Zhenguang G. CaiTue, 10 Ma💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

この論文は、マルチモーダルタスクにおける既存の評価指標の限界を克服するため、基準ごとのスコアを統合して総合評価を行う参照不要の指標「HarmonicEval」を提案し、4 つのタスクにわたる 18,000 件の専門家の人間評価を含む新しいベンチマーク「MMHE」を構築してその有効性を検証したものである。

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa InoueTue, 10 Ma💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

本論文は、プロンプト・チューニングにおける埋め込みの収束(クラスタリング)が必須ではないことを示し、制御可能な埋め込みの事前分布が重要であり、異なるタスク間での活性化空間のクラスタリング特性がモデルの汎化能力の理解に新たな示唆を与えることを明らかにしています。

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal KadambaTue, 10 Ma🤖 cs.LG

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

この論文は、高計算コストやブラックボックスモデルへの適用限界といった既存のアンサンブル手法の課題を解決するため、ピボット翻訳を用いて多様な候補を生成し、それらを事後に統合する「単一モデルアンサンブルフレームワーク」を提案し、低リソース言語対における翻訳品質の向上を実証したものである。

Seokjin Oh, Keonwoong Noh, Woohwan JungTue, 10 Ma💬 cs.CL

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

この論文は、タスクの難易度に基づいてクラスタリングを行い、予測可能な部分集合の性能を理論的に外挿する「難易度に基づくクラスタリング(COD)」フレームワークを提案し、大規模言語モデルの事前学習段階における下流タスク性能を高精度に予測する手法を確立したものである。

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang LiTue, 10 Ma🤖 cs.LG

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

本論文は、RRAM のノイズ耐性を備えたハイブリッド CIM アーキテクチャ上で大規模言語モデルを効率的にファインチューニングし、A100 GPU と比較してエネルギー消費を約 3% に削減しつつ精度を維持する「HaLoRA」という手法を提案し、Qwen や LLaMA 系列のモデルを用いた実験で平均スコアを最大 22.7 向上させたことを示しています。

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

More Women, Same Stereotypes: Unpacking the Gender Bias Paradox in Large Language Models

この論文は、大規模言語モデルが職業分野で女性キャラクターを過剰に生成する傾向があるにもかかわらず、その職業の性別分布は現実の労働データよりもむしろ人間の性別ステレオタイプに一致するというパラドックスを明らかにし、新たなバイアスを防ぐためのバランスの取れた対策の重要性を指摘しています。

Evan Chen, Run-Jun Zhan, Yan-Bai Lin, Hung-Hsuan ChenTue, 10 Ma💬 cs.CL

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

この論文は、高予測エントロピーのトークンに基づいて推論ステップを自動的に分割し、人手による注釈を不要にしながら、少量のデータで最先端の性能を達成する新しいプロセス報酬モデル「EDU-PRM」を提案し、数学的推論タスクにおける精度向上とトークン使用量の削減を実現したことを報告しています。

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong LiTue, 10 Ma🤖 cs.LG