Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs
この論文は、大規模言語モデルの連合学習において、LoRA(低ランク適応)を用いることで、学習データの記憶(memorization)を最大 10 倍削減し、性能を大幅に損なうことなくプライバシーを強化できることを示しています。
1071 件の論文
この論文は、大規模言語モデルの連合学習において、LoRA(低ランク適応)を用いることで、学習データの記憶(memorization)を最大 10 倍削減し、性能を大幅に損なうことなくプライバシーを強化できることを示しています。
この論文は、大規模言語モデル(LLM)を用いて脳活動に対応する画像の自然言語キャプションを生成する「LaVCa」という手法を提案し、従来の手法よりも正確かつ詳細に視覚野のボクセル選択性を記述し、脳内表現の微細な機能分化の解明に貢献することを示しています。
この論文は、タスクの難易度に基づいてクラスタリングを行い、予測可能な部分集合の性能を理論的に外挿する「難易度に基づくクラスタリング(COD)」フレームワークを提案し、大規模言語モデルの事前学習段階における下流タスク性能を高精度に予測する手法を確立したものである。
本論文は、RRAM のノイズ耐性を備えたハイブリッド CIM アーキテクチャ上で大規模言語モデルを効率的にファインチューニングし、A100 GPU と比較してエネルギー消費を約 3% に削減しつつ精度を維持する「HaLoRA」という手法を提案し、Qwen や LLaMA 系列のモデルを用いた実験で平均スコアを最大 22.7 向上させたことを示しています。
この論文は、大規模言語モデルが職業分野で女性キャラクターを過剰に生成する傾向があるにもかかわらず、その職業の性別分布は現実の労働データよりもむしろ人間の性別ステレオタイプに一致するというパラドックスを明らかにし、新たなバイアスを防ぐためのバランスの取れた対策の重要性を指摘しています。
この論文は、高予測エントロピーのトークンに基づいて推論ステップを自動的に分割し、人手による注釈を不要にしながら、少量のデータで最先端の性能を達成する新しいプロセス報酬モデル「EDU-PRM」を提案し、数学的推論タスクにおける精度向上とトークン使用量の削減を実現したことを報告しています。
この論文は、既存の情報検索モデルが因果関係の理解に欠けているという課題に対し、意味的および因果的な関係の両方を学習する新しい検索モデル「CAWAI」を提案し、大規模な検索設定や科学分野のゼロショットタスクにおいて優れた性能を示すことを実証しています。
この論文は、K-5 数学・読解問題の難易度推定において、大規模言語モデル(LLM)による直接的な推定よりも、LLM で抽出した特徴量を木ベース機械学習モデルに入力する手法の方が高い精度(相関係数 0.87)を達成し、大規模なフィールドテストへの依存を減らす有望なアプローチであることを示している。
DCASE 2025 チャレンジのタスク 5 として発表された本論文は、海洋哺乳類の鳴き声から複雑な現実世界の音響シーンまで多様なドメインを跨ぐオーディオ質問応答(AQA)ベンチマークを提案し、音声言語モデルの推論能力向上と人間レベルの聴覚理解の実現を目指しています。
FreeKV は、アルゴリズム側で推論のクリティカルパスから KV 選択を分離するスペキュレイティブ検索と微細な修正を、システム側で CPU/GPU メモリ間のハイブリッドレイアウトと二重バッファリングによるストリーミング検索を採用することで、精度を維持しつつ既存の KV キャッシュ検索手法を最大 13 倍高速化するトレーニング不要のフレームワークを提案するものです。
この論文は、類似問題の提示と形式検証器によるフィードバックを組み合わせたニューロシンボリック手法を提案し、これにより大規模言語モデルの幾何学証明生成の精度を大幅に向上させることを示しています。
この論文は、検証セットを必要とせず、メタフィードバックに基づいて推論時に動的にマルチエージェントシステムの設計を自己進化させるフレームワーク「MAS-ZERO」を提案し、推論、コーディング、エージェントタスクにおいて既存の手法を上回る性能とコスト効率を実現することを示しています。
本論文は、従来の RAG が抱える構造的・語彙的なミスマッチを解決するため、抽象構文木とデータフローグラフを統合した新しいフレームワーク「HDLxGraph」と、大規模な HDL プロジェクトから生成された評価データセット「HDLSearch」を提案し、HDL 関連タスクにおける検索・デバッグ・補完の精度を大幅に向上させることを示しています。
本論文は、LLM のコード生成能力を現実的なソフトウェア開発ワークフローに即して評価する「SwingArena」という競争的評価フレームワークを提案し、長文脈コードの処理を可能にする検索拡張生成モジュールを備え、400 件以上の実世界の GitHub 課題を用いた実験を通じて、異なるモデルがパッチ生成と CI 検証においてそれぞれ異なる強みを持つことを示しています。
本論文は、表形式データの理解・推論・操作に関する専門家のレベルを包括的に評価するため、25 の実世界タスクと 2 万 8 千以上の質問からなる大規模ベンチマーク「MMTU」を提案し、最先端のモデルでも高い性能が求められていることを示しています。
本論文は、推論モデルにおける「反射トークン」の過剰・不足が性能を低下させることを示し、最適化における学習率スケジューリングの概念を応用して追加計算コストなしに反射トークンの配置を動的に調整する「CyclicReflex」という手法を提案し、複数のベンチマークで既存手法を上回る性能向上を実証しています。
この論文は、報酬関数の説明をプロンプトに組み込むことで大規模推論モデルの強化学習微調整を効率化する「MeRF(Motivation-enhanced Reinforcement Finetuning)」を提案し、その有効性を実証しています。
本論文は、マルチモーダル大規模言語モデル(MLLM)がエージェントの行動を過剰に肯定する「同意バイアス」を特定し、自己生成された事前知識に基づいて検証を行う軽量手法「SGV」を提案することで、タスク完了率や精度を大幅に向上させることを示しています。
この論文は、LLM ベースのユーザーシミュレータにおける目標指向行動の一貫性欠如という課題を解決するため、会話中の目標進行を追跡する「UGST」フレームワークと評価指標を提案し、マルチターン会話での目標整合性を大幅に向上させることを示しています。
この論文は、PlanetMath から概念と説明をランダムにサンプリングし、9 つの戦略と強化学習を駆使してゼロから高難度の数学問題を合成するフレームワーク「MathSmith」を提案し、これにより大規模言語モデルの推論能力を大幅に向上させることを示しています。