Towards Self-Robust LLMs: Intrinsic Prompt Noise Resistance via CoIPO
本論文は、外部ツールに依存せず大規模言語モデル(LLM)が持つ本質的なノイズ耐性を向上させるため、対照学習に基づく逆直接選好最適化(CoIPO)手法を提案し、新たに構築したベンチマーク「NoisyPromptBench」を用いた実験で最先端の手法を上回る性能を達成したことを示しています。
1861 件の論文
本論文は、外部ツールに依存せず大規模言語モデル(LLM)が持つ本質的なノイズ耐性を向上させるため、対照学習に基づく逆直接選好最適化(CoIPO)手法を提案し、新たに構築したベンチマーク「NoisyPromptBench」を用いた実験で最先端の手法を上回る性能を達成したことを示しています。
この論文は、インターネット・ミームの毒性評価と意味理解を目的とした新しいセマンティックフレームワークと、609 問の質問応答ペアからなるベンチマーク「M-QUEST」を提案し、オープンソースの大規模言語モデルの性能を多角的に評価した研究です。
この論文は、Google Mediapipe と深層学習モデルを用いた実験を通じて、中国語からアラビア語、ギリシャ語からフランダース語への象徴的な手話記号の転移学習が、それぞれ 7.02% および 1.07% の認識精度向上をもたらすことを示しています。
この論文では、対話中のターンレベルで LLM の振る舞いを精密に制御し、ゼロショットや従来のフューショットプロンプティングよりも優れた性能を示す新しいプロンプト技術「Retcon」を提案しています。
この論文は、従来の自己注意機構よりも文字誤り率や単語誤り率、交差エントロピー損失で大幅に優れた性能を示す「量子インスパイアード自己注意(QISA)」メカニズムを提案し、GPT-1 のフルオートレグレッシブ言語モデルパイプラインに初めて統合したことを報告しています。
この論文は、スパースオートエンコーダに基づく概念発見手法を用いることで、事前のバイアス分類に依存せず、LLM 判定者の評価基準や人間との乖離を自動的に解釈可能かつ予測的に分析できることを示しています。
この論文は、社会科学的理論と帰納推論に基づいたニューロ記号アプローチを提案し、LLM による「集合的から個人的(またはその逆)への物語の転換」において、ゼロショット手法を大幅に上回る性能で原意を保持しつつ効果的なナラティブシフトを実現することを示しています。
本論文は、大規模言語モデルの指示遂行能力を人間の判断パターンに合致させて自動評価するための、双対エージェントによる型理論的枠組み「DIALEVAL」を提案し、複雑な指示や多ターン対話における高精度な評価を実現したことを報告しています。
本論文は、既存の静的なベンチマークが抱えるデータ汚染や陳腐化の問題を解決するため、12 の生物医学サブドメインを網羅し月次で更新される動的かつ自動化された評価枠組み「DBench-Bio」を提案し、AI の真の新知見発見能力を厳密に評価する手法を確立したものである。
本論文は、安全性調整された大規模言語モデルが本来安全なリクエストを誤って拒否する「過剰拒否」の問題を、対照的洗練(DCR)という新たなアライメント段階を導入することで、安全性を損なわずに解決し、モデルの有用性を向上させる手法を提案しています。
この論文は、LLM の多様なスタイル属性が活性化空間内の線形方向として符号化されているという仮説を実証し、これに基づいてトレーニング不要で低コストかつ高精度なスタイル制御を実現する軽量手法を提案しています。
この論文は、ユーザーの蓄積された意図パターンを参照して文脈に応じた意図理解を可能にする検索条件付き推論を行うプロキシエージェント「IntPro」を提案し、その有効性を複数のシナリオで実証したものである。
この論文は、推論時にモデルパラメータを更新せずに大規模言語モデルの性格を連続的かつ多面的に制御し、複数の特性間の干渉を回避する「逐次適応型ステアリング(SAS)」というモジュール化されたフレームワークを提案し、ビッグファイブ性格特性の制御において従来の手法を上回る精度と一貫性を達成することを示しています。
この論文は、ユーザーの満足度、感情認識、および感情状態遷移の予測を同時に扱える多タスク・多ラベルの中国語対話データセットを構築し、対話システムにおける感情と満足度の研究に新たなリソースを提供することを目的としています。
本論文は、言語モデルの内部構造を最大全域木を用いて解析する「StructLens」というフレームワークを提案し、従来のコサイン類似度とは異なる層間の類似性パターンを明らかにするとともに、層のプルーニングなどの実用的タスクへの有効性を示しています。
本論文は、環境からのフィードバックを用いた反復的なコード改良により、LLM アージェントが環境で禁止された行動(例えばチェスでの違法な手)を取らないように自動でコードハーネスを生成する手法「AutoHarness」を提案し、これにより小規模モデルがより大規模なモデルを上回る性能を発揮し、かつ意思決定時に LLM を不要とするコードポリシーの生成も可能であることを示しています。
この論文は、LLM が「確信があるか」といった自己挑発的なプロンプトに対してどのように反応するかを評価する「確実性ロバストネスベンチマーク」を提案し、従来の精度評価では捉えられない対話的安定性と適応性のバランスが、モデルの信頼性や実用化において重要な評価指標であることを明らかにしています。
本論文は、生体信号であるPPG波形と自然言語を統合的に学習するための大規模データセット「PulseLM」を構築し、生理学的推論やマルチモーダル基盤モデルのベンチマークを可能にする新たな標準基盤を提案しています。
本論文は、大規模言語モデルが数学的推論タスクにおいて中間推論ステップに注入された 5 種類の攪乱(計算誤り、単位変換、迎合、ステップ欠落、追加ステップ)に対してどのように脆弱であるかを評価し、モデルの規模拡大が一部の攪乱に対する耐性を高める一方で単位変換などの課題には限定的な効果しかないことを実証的に明らかにした。
本論文は、事前学習済みモデルの改修や追加学習を一切行わず、LM ヘッドへのモンテカルロドロップアウトを適用してドラフトトークンの受容を確率的に判断する「DropMatch」という新しい手法を提案し、推論速度を最大 1.33 倍に向上させつつタスク性能を維持することを示しています。