Verbalizing LLM's Higher-order Uncertainty via Imprecise Probabilities
この論文は、従来の確率論的枠組みでは捉えきれない大規模言語モデル(LLM)の不確実性を、不確実性そのものに対する不確実性(第二-order 不確実性)を含む「不確実確率」の枠組みに基づき、プロンプトと後処理を通じてより忠実に引き出す新しい手法を提案し、その有効性を多様な設定で実証するものである。
10817 件の論文
この論文は、従来の確率論的枠組みでは捉えきれない大規模言語モデル(LLM)の不確実性を、不確実性そのものに対する不確実性(第二-order 不確実性)を含む「不確実確率」の枠組みに基づき、プロンプトと後処理を通じてより忠実に引き出す新しい手法を提案し、その有効性を多様な設定で実証するものである。
この論文は、ラベルノイズを含む SGD による 2 層線形ネットワークの学習ダイナミクスを解析し、ラベルノイズがモデルを「怠惰な領域」から「豊富な領域」へ移行させ、最終的に汎化性能を向上させる二段階の学習プロセスを明らかにするとともに、その知見を SAM などの最適化アルゴリズムにも拡張可能であることを示しています。
この論文は、LLM によるバイアス付き評価と高コストな人間による監査を組み合わせ、逆確率重み付け残差を用いた推定器と PP-LUCB アルゴリズムを開発することで、テキスト証拠に基づくサービスシステムの最適構成を低コストかつ高信頼性で特定する手法を提案し、その有効性を理論的・実験的に証明したものである。
この論文は、時空間データセットの圧縮において時間・空間の両次元をバランスよく圧縮し、クラスタレベルとサブセットレベルの手法を組み合わせることで、従来の手法よりも高速かつメモリ効率よく、かつ予測精度を向上させた新しい時空間データセット蒸留手法「STemDist」を提案するものである。
本論文は、GAN と FGSM による敵対的攻撃を想定し、スタッキング分類器とオートエンコーダを多層的に組み合わせ、敵対的訓練を適用することで、機械学習ベースのネットワーク侵入検知システム(NIDS)の耐性を向上させる手法を提案し、UNSW-NB15 と NSL-KDD データセットを用いた実験でその有効性を示しています。
本論文は、異なる運転条件における分布の不一致を解決するため、劣化段階を同期させたバッチサンプリングと大規模カーネルおよびクロスアテンションを統合した自動符号化器を提案し、異分野適応に基づく高品質な健全性指標の学習を実現する手法を提示しています。
この論文は、FP4 量子化された LLM 学習における数値的不安定性の主要因がランク 1 の平均バイアスに起因することを発見し、これを単純な平均値の引き算で除去することで、SVD などの複雑な手法を避けつつ BF16 並みの安定性と性能を回復させる効率的な手法を提案しています。
この論文は、限られたデモンストレーションから物理的に制約された軌道を生成するデータ拡張手法と、多段階の軌道セグメントと観測特徴を組み合わせて方策を適応的に微調整する残差モジュールを統合した階層的フレームワーク「FAR-Dex」を提案し、シミュレーションおよび実世界における多指ハンドとアームの協調操作の成功率と汎化性能を大幅に向上させることを示しています。
本論文は、単一フロー設定に限定されがちな既存の物理情報ニューラルネットワーク(PINN)の課題を克服し、共有・専門化アーキテクチャ、クロスフロー注意機構、動的重み割り当て戦略を統合することで、多様なナビエ・ストークス方程式のマルチタスク学習において高精度かつ安定した予測を実現する統一フレームワーク「UniPINN」を提案するものです。
本論文は、長尺の複数話者音声における時間指定付き話者割り当て付きASRを実現するため、時間意識型話者追跡モジュールと音声LLMを組み合わせたエンドツーエンドシステム「G-STAR」を提案し、チャンク間の話者同一性の一貫性と微細な時間境界の両方を維持する手法を確立したものである。
この論文は、ユーザーの長期的な嗜好と短期的な興味の変遷をそれぞれグローバルおよび局所的な時間的視点から統合的に学習する新しいニュース推薦フレームワークを提案し、実データによる実験で既存手法を上回る性能を実証したものである。
この論文は、検索結果の要約に特化した初の大規模言語モデル「SearchLLM」を提案し、階層的な報酬システムと GRPO による最適化を通じて、RedNote での実装において生成品質とユーザーエンゲージメントの向上、および安全性の維持を実現したことを報告しています。
この論文は、対立する価値観を持つ複数のエージェントが対話を通じて相互に有益な解決策を導き出す「交渉に基づくマルチエージェント対話」を RL 学習で訓練する枠組みを提案し、これにより単一エージェントの手法と同等の集団的価値整合性を保ちつつ、対立解決能力を大幅に向上させることを実証しています。
この論文は、異なるタスクや文脈にわたって神経ダイナミクスを共有埋め込み空間内で学習する階層モデル「JEDI」を提案し、限られた実験データから脳の状態やメカニズムをスケーラブルかつ汎用的に推論できることを示しています。
この論文は、ユーザーが商用生成 AI のチャットボットに対して安全なプロンプトで画像の精緻化を依頼するだけで、現代のディープフェイク検出器を回避しつつ高品質な偽造画像を生成できてしまうという、検出フレームワークの脅威モデルと実世界の AI 能力の間の構造的な不一致を明らかにしています。
本論文は、大規模言語モデルの生成能力とグラフ注意メカニズムを統合した軽量ハイブリッド枠組みを提案し、限られた計算資源下でも「アマゾンズ」ゲームにおいて教師モデルを上回る高性能な意思決定を実現することを示しています。
この論文は、LLM における指示階層(IH)の堅牢性を向上させるための強化学習用データセット「IH-Challenge」を提案し、GPT-5-Mini への適用により安全性と有用性を大幅に改善しつつ能力の低下を最小限に抑えたことを報告しています。
この論文は、部分的に観測可能なマルコフ決定過程(POMDP)として定式化した医療物資の時間的制約付き配送問題を、近接方策最適化(PPO)を用いたマルチエージェント強化学習フレームワークで解決し、実世界の地理データに基づく実験により古典的 PPO が非同期学習よりも優れた協調性能を示すことを実証しています。
この論文は、骨やインプラントのセグメンテーションタスクにおいて、11 種類のプロンプタブル基盤モデルを評価した結果、モデルやプロンプト戦略によって性能が大きく異なり、特に人間のプロンプトを使用すると性能が低下し、モデルがプロンプトのばらつきに敏感であることを示し、人間主導の環境での最適なモデル選出の難しさを浮き彫りにしました。
本論文では、従来の層の積み重ねに代わり、ODE に着想を得た収束的な更新を用いて単一の共有ニューラルブロックを反復適用する「SCORE」という離散再帰的アプローチを提案し、パラメータ数の削減と収束速度の向上を実現することを示しています。