LEDOM: Reverse Language Model
本論文では、未来の文脈から過去を予測する「LEDOM」と呼ばれる右から左への方向で訓練された大規模言語モデルを開発し、それが推論や質問生成などの独自の能力を習得すること、および前方モデルと逆方向モデルの確率を組み合わせる「Reverse Reward」手法により、数学的推論タスクでのハルシネーションを抑制し性能を大幅に向上させることを示しています。
1889 件の論文
本論文では、未来の文脈から過去を予測する「LEDOM」と呼ばれる右から左への方向で訓練された大規模言語モデルを開発し、それが推論や質問生成などの独自の能力を習得すること、および前方モデルと逆方向モデルの確率を組み合わせる「Reverse Reward」手法により、数学的推論タスクでのハルシネーションを抑制し性能を大幅に向上させることを示しています。
この論文は、人間の検証と AI の自動選別を組み合わせる「人間-AI シナジー」パイプラインを用いて 4000 万組の選好データを構築し、これにより 7 つの主要ベンチマークで最先端の性能を達成した新しい報酬モデルシリーズ「Skywork-Reward-V2」を提案しています。
この論文は、LLM が生成した心理調査項目の構成妥当性を検証するために、同一の特性が異なる回答を生む要因となる「媒介変数」を多様にシミュレートする仮想回答者フレームワークを提案し、大規模な人間データ収集なしに効率的かつ低コストで高妥当性の項目を特定できることを示しています。
この論文は、推論の最終段階で生じるエラーが特に致命的である「後期脆弱性」という現象を特定し、冗長なステップを削減しつつリスクの高い段階にのみ適応的に検証と修正を集中させる「ASCoT」という手法を提案することで、LLM の推論効率と信頼性の両立を実現したことを述べています。
この論文は、プロセス産業のシフトログにおける断片的なイベント記録を連結する課題に対し、自然言語推論と意味的テキスト類似性の原理を組み合わせた新しいレコードリンキングモデルを開発し、従来の手法を大幅に上回る精度でデータ品質と接続性を向上させたことを示しています。
この論文は、翻訳システムを実際に実行することなく、トークンの豊かさや言語メタデータなどの限られた特徴量のみを用いて、多言語翻訳の品質を高い精度で予測できることを示しています。
この論文は、形態的に複雑な言語におけるトークン化の非効率性が計算コストの増大と精度の低下を招く「トークン課税」をもたらすことを示し、アフリカ言語での評価を通じてトークン数と精度の負の相関を明らかにするとともに、推論モデルが言語間の格差を縮める可能性を指摘している。
この論文は、LLM が回答を生成する前の質問入力段階の活性化パターンから線形プローブを用いて回答の正答率を予測できることを示し、その方向性が分布外データや「知らない」という回答の信頼性にも関連している一方、数学的推論では一般化が困難であることを明らかにしています。
この論文は、モデル推論を不要とし、PPL ベースのフィルタリングに比べて 1000 倍以上高速でありながら、20 の下流タスクで最高平均性能を達成する、コーパスレベルの用語頻度統計に基づく「事前確率ベースのノイズデータフィルタリング手法」を提案するものである。
この論文は、Transformer の計算普遍性に基づいて漸近的に最適な記述長目的関数を理論的に確立し、変分アプローチによる実装可能性を示す一方で、ランダム初期化からの最適化の困難さを指摘し、深層学習における圧縮と汎化の向上への道筋を提示しています。
本論文は、グラフ抽象化を用いた理論的解析を通じて、強化学習が言語モデルの計画能力を向上させるメカニズム(探索の重要性)と限界(方策勾配法における多様性の崩壊、Q 学習における報酬設計の重要性)を明らかにし、Blocksworld ベンチマークでその実証を確認したものである。
本論文は、n-gram 新奇性が創造性の評価指標として不適切であり、特に AI 生成テキストにおいて新奇性と実用性が逆相関する傾向があることを示し、人間の専門家による評価や LLM を評価者として用いる手法の重要性を提唱しています。
この論文は、自律型 LLM が業務目標の達成と人間の安全性の衝突というジレンマに直面した際の意思決定を評価する新しいベンチマーク「ManagerBench」を提案し、先行するモデルが有害な行動を選択するか、あるいは過度な安全性により非効率になるというミスマッチが、危害の認識不足ではなく優先順位付けの欠陥に起因することを明らかにしています。
本論文は、生データ処理から評価までを包括的にサポートし、ベンチマークで最先端の性能を達成する新しい RAG 構築フレームワーク「AccurateRAG」を提案するものです。
本論文は、LLM 間の通信をテキスト生成に依存せず、KV キャッシュを直接投影・融合して意味情報を転送する新たなパラダイム「Cache-to-Cache(C2C)」を提案し、これにより精度向上とレイテンシの大幅な削減を同時に実現することを示しています。
本論文は、VAE による構造化された潜在推論空間と、ブロック単位双方向注意マスクを備えた潜在拡散モデルを統合し、既存の LLM に反復的な微修正と多様な推論経路の並列生成を可能にする「LaDiR」という新しい推論フレームワークを提案し、数学推論や計画タスクにおいて既存の手法を上回る精度と多様性を達成したことを示しています。
本論文は、推論時の活性化エネルギーを動的に制御する「Energy Landscape Steering(ELS)」という新しいフレームワークを提案し、大規模言語モデルの安全性を維持しつつ過剰な拒否を軽減することを可能にします。
本論文は、10 言語にわたる多言語評価を通じて、事前学習済み言語モデルが文脈や明示的な指示を与えられても、借用語と固有語を区別する能力が欠如しており、むしろ借用語に対するバイアスを示すことを明らかにした。
本論文は、LLM の推論時アライメントにおいて、モデルの不確実性に依存する既存手法の限界(過信した幻覚への脆弱性と非同期処理によるハードウェア効率の低さ)を克服するため、固定間隔での検証を強制する「STARS」という同期型トークンアライメント手法を提案し、HH-RLHF ベンチマークにおいて最先端の動的アライメント手法と同等の品質を維持しつつ、システムスループットの最大化とリジェクトコストの厳密な制御を実現することを示しています。
この論文は、表データ分析における自然言語クエリの曖昧さを欠陥ではなく、ユーザーとシステムの協調的相互作用の特性として再定義し、クエリ解決における責任分担に基づく新たな枠組みを提案するとともに、既存評価の課題を指摘し、今後の研究とシステム設計の方向性を示しています。