Do What I Say: A Spoken Prompt Dataset for Instruction-Following
本論文は、音声大規模言語モデル(SLLM)の現実的な評価を可能にする多言語・多タスクの音声指示データセット「DoWhatISay (DOWIS)」を提案し、テキスト指示に比べ音声指示の性能が特に低資源言語やクロスリンガル設定で劣る傾向がある一方で、音声出力タスクではその差が縮まることを示した。
1061 件の論文
本論文は、音声大規模言語モデル(SLLM)の現実的な評価を可能にする多言語・多タスクの音声指示データセット「DoWhatISay (DOWIS)」を提案し、テキスト指示に比べ音声指示の性能が特に低資源言語やクロスリンガル設定で劣る傾向がある一方で、音声出力タスクではその差が縮まることを示した。
この論文は、19,145 人の参加者による大規模調査を通じて、Claude や GPT などの最先端大規模言語モデル(LLM)が従来の政治広告よりも効果的に世論を形成しうることを示し、モデル間の説得力の差異や情報提示プロンプトの影響の多様性を明らかにするとともに、説得リスクを評価する新たな枠組みを提案しています。
この論文は、逐次学習における大規模言語モデルの忘却を抑制しつつ適応性を維持するため、サンプルごとの記憶強度を推定し適応的にリハーサルをスケジュールする新しい経験再生フレームワーク「MSSR」を提案し、広範な実験で最先端の手法を上回る性能を実証したものである。
この論文は、複雑な推論が不要な単純な事実質問においても、推論プロセスが「計算バッファ効果」と「事実的プライミング」という二つのメカニズムを通じてパラメトリック知識の想起を促進する一方で、中間事実の幻覚が最終回答の誤りを招くリスクがあることを明らかにし、幻覚を含まない推論経路を優先することでモデルの精度向上が可能であることを示しています。
本論文は、大規模言語モデルの時代におけるモデルマージの理論的基盤、手法、応用、および生態系を「FUSE」という4次元の分類枠組みを用いて包括的に調査し、今後の研究と実用化に向けた指針を提供するサーベイ論文です。
この論文は、人間とは異なり大規模言語モデルにおいて推論プロセスが誠実さを高める効果をもたらすことを示し、その理由として欺瞞的な領域が不安定であり、推論による表現空間の探索がより安定した誠実なデフォルト状態へとモデルを導くことを発見したことを報告しています。
この論文は、概念間の新颖かつ意味のあるつながりを生み出す「連想推論」能力を評価するためのベンチマーク「CREATE」を提案し、最先端モデルの創造的有用性を測定するとともに、思考モデルや創造的プロンプトの限界を示すことで、モデルの創造性向上に向けた新たな手法開発の基盤を提供しています。
この論文は、大規模言語モデル Llama-3-8B を指示チューニングした「Llama-Mob」を提案し、複数の都市における大規模な移動データを用いた検証により、従来の手法を凌駕する長期的な都市規模の移動予測能力と、限られたデータからの高いゼロショット汎化性能を実証したものです。
この論文は、話者の同一性が言語理解に与える影響を、音響的エピソード記憶に基づくボトムアップ処理と話者モデルに基づくトップダウン処理の相互作用として捉え、これらを統合した確率的処理モデルを提案し、AI アgent を含む新たな社会的対話者への応用を促すものである。
本論文は、視覚分野のアイデアを自然言語処理に応用し、離散キー・バリューボトルネック(DKVB)を導入することで、計算コストを抑えつつ大規模言語モデルにおける破滅的忘却を効果的に軽減する効率的な継続学習手法を提案しています。
この論文は、マルチモーダルタスクにおける既存の評価指標の限界を克服するため、基準ごとのスコアを統合して総合評価を行う参照不要の指標「HarmonicEval」を提案し、4 つのタスクにわたる 18,000 件の専門家の人間評価を含む新しいベンチマーク「MMHE」を構築してその有効性を検証したものである。
本論文は、プロンプト・チューニングにおける埋め込みの収束(クラスタリング)が必須ではないことを示し、制御可能な埋め込みの事前分布が重要であり、異なるタスク間での活性化空間のクラスタリング特性がモデルの汎化能力の理解に新たな示唆を与えることを明らかにしています。
この論文は、高計算コストやブラックボックスモデルへの適用限界といった既存のアンサンブル手法の課題を解決するため、ピボット翻訳を用いて多様な候補を生成し、それらを事後に統合する「単一モデルアンサンブルフレームワーク」を提案し、低リソース言語対における翻訳品質の向上を実証したものである。
この論文は、モデルの勾配を利用して社会的バイアスを特徴とするニューロンに符号化する新しいエンコーダー・デコーダー手法を提案し、モデルの能力を維持したままバイアスを修正・書き換えることを可能にするものである。
この論文は、大規模言語モデルの連合学習において、LoRA(低ランク適応)を用いることで、学習データの記憶(memorization)を最大 10 倍削減し、性能を大幅に損なうことなくプライバシーを強化できることを示しています。
この論文は、大規模言語モデル(LLM)を用いて脳活動に対応する画像の自然言語キャプションを生成する「LaVCa」という手法を提案し、従来の手法よりも正確かつ詳細に視覚野のボクセル選択性を記述し、脳内表現の微細な機能分化の解明に貢献することを示しています。
この論文は、タスクの難易度に基づいてクラスタリングを行い、予測可能な部分集合の性能を理論的に外挿する「難易度に基づくクラスタリング(COD)」フレームワークを提案し、大規模言語モデルの事前学習段階における下流タスク性能を高精度に予測する手法を確立したものである。
本論文は、RRAM のノイズ耐性を備えたハイブリッド CIM アーキテクチャ上で大規模言語モデルを効率的にファインチューニングし、A100 GPU と比較してエネルギー消費を約 3% に削減しつつ精度を維持する「HaLoRA」という手法を提案し、Qwen や LLaMA 系列のモデルを用いた実験で平均スコアを最大 22.7 向上させたことを示しています。
この論文は、大規模言語モデルが職業分野で女性キャラクターを過剰に生成する傾向があるにもかかわらず、その職業の性別分布は現実の労働データよりもむしろ人間の性別ステレオタイプに一致するというパラドックスを明らかにし、新たなバイアスを防ぐためのバランスの取れた対策の重要性を指摘しています。
この論文は、高予測エントロピーのトークンに基づいて推論ステップを自動的に分割し、人手による注釈を不要にしながら、少量のデータで最先端の性能を達成する新しいプロセス報酬モデル「EDU-PRM」を提案し、数学的推論タスクにおける精度向上とトークン使用量の削減を実現したことを報告しています。