Steering Awareness: Models Can Be Trained to Detect Activation Steering
この論文は、言語モデルがアクティベーション・ステアリング(潜在空間へのベクトル注入)の存在や注入された概念を検知する能力(ステアリング・アウェアネス)を獲得し得ることを実証し、その検知能力が安全性評価の信頼性や解釈技術の長期的な有効性に重大な影響を与える可能性を指摘しています。
1077 件の論文
この論文は、言語モデルがアクティベーション・ステアリング(潜在空間へのベクトル注入)の存在や注入された概念を検知する能力(ステアリング・アウェアネス)を獲得し得ることを実証し、その検知能力が安全性評価の信頼性や解釈技術の長期的な有効性に重大な影響を与える可能性を指摘しています。
本論文は、従来の「思考後生成」方式の長文生成における限界を克服し、並列推論と効率的な学習を可能にする「思考中生成」フレームワーク「FlyThinker」を提案し、個人化された高品質な長文生成を実現するものである。
本論文は、KV キャッシュの再利用と学習複雑性の低減を実現するために、シーケンス再編成を因果的注意フレームワークに統合し、トークンレベルからスロットレベルへの並列デコーディングを可能にする新たな拡散大規模言語モデル「ReFusion」を提案し、既存のマスク拡散モデルを大幅に上回る性能と高速化を達成したことを示しています。
本論文は、認知負荷理論に基づき、文脈内のトークン位置を学習可能なモジュールで動的に再配置する「RePo」を提案し、これによりノイズのある文脈や構造化データ、長いコンテキストにおける大規模言語モデルの性能を向上させることを示しています。
本論文は、LLM の外部ツール連携における新たな安全リスクを包括的に評価するため、実世界の MCP サーバーと 20 種類の攻撃タイプに基づき構築されたベンチマーク「MCP-SafetyBench」を提案し、主要な LLM が依然として脆弱であることを実証しています。
この論文は、テキストベースの環境において大規模言語モデルが世界モデルとして機能し得るかを検証し、その忠実性、スケーラビリティ、エージェントへの有用性を評価する枠組みを提示するとともに、十分な訓練と行動のカバレッジが条件となり、行動検証や合成軌道生成を通じてエージェントの学習を改善できることを示しています。
本論文は、ランダム性の発生源を事後サンプリングから入力変数へ移すことで単一のフォワードパスで複数のトークンを予測可能にし、言語モデルの推論速度を最大 2.4 倍向上させる汎用フレームワーク「Parallel Token Prediction (PTP)」を提案するものである。
この論文は、イベント中心の質問応答や説得的な回答生成といった実世界のタスクにおいて、LLM へのツールや計画の導入が精度向上をもたらす一方で、レイテンシやコストが劇的に増加し、タスクやモデル規模に応じて最適な戦略が異なることを示すベンチマーク結果を報告しています。
本論文は、LLM のタスクレベルの制御を可能にするため、生物学的な機能拮抗の原理に基づき、タスクを促進する「良いニューロン」と抑制する「悪いニューロン」を対照学習で同定し、偶然の正解による誤った帰属を軽減する新たなフレームワーク「NeuronLLM」を提案するものである。
本論文は、大規模な事前学習や多段階最適化を必要とせず、限られた計算資源で効率的に学習可能な、話者の声や話題、バックチャネルや割り込みなどの会話行動を明示的な指示で制御できる初のオープンなフルデュプレックス対話音声モデル「F-Actor」を提案するものである。
本論文は、大規模言語モデルが意味のない語彙で構成された「ジャバウォッキー」のような言語からも構造パターンに基づいて意味を回復できることを示し、パターンマッチングが真の知能の代替ではなく不可欠な要素であることを明らかにしている。
本論文は、事前学習段階で専門家の剪定と再編成を行う「Layer-Adaptive Expert Pruning(LAEP)」アルゴリズムを提案し、これにより事前学習効率を 49% 向上させつつ総パラメータ数を 33.3% 削減した、企業向けタスクに特化した 10100 億パラメータの MoE 型大規模言語モデル「Yuan3.0 Ultra」を開発したことを報告しています。
この論文は、サッカーのハイライト映像から人間が重要とみなす瞬間を特定するタスクにおいて、最先端のマルチモーダル基盤モデルが偶然レベルに近い性能しか示さず、単一モダリティへの依存やクロスモーダルな情報の統合不足が課題であることを明らかにし、モジュール化されたアーキテクチャと補完的な学習手法の必要性を提言しています。
本論文は、単一のモデルが検証済みの推論経路などの特権情報を持つ教師と、問題のみを見る学生として機能する「オンポリシー自己蒸留(OPSD)」フレームワークを提案し、これにより従来の教師モデルを必要とする手法や強化学習手法よりも高い推論性能とトークン効率を実現することを示しています。
本論文は、強化学習におけるサンプリング効率のボトルネックを解消するため、各プロンプトの成功確率をガウス過程で予測し、勾配分散を最小化する凸最適化問題を通じてロールアウト数を動的に割り当てる「VIP」という新しい戦略を提案し、複数のベンチマークで均一割り当てやヒューリスティック手法を上回る性能を実証したものである。
本論文は、化学推論における言語トークンの制約を回避し、連続的な潜在空間で直接推論を行う「LatentChem」を提案し、これが言語生成を伴わない推論の自律的獲得を通じて、精度と推論速度の両面で大幅な改善をもたらすことを実証しています。
本論文は、対話型 API 発見のための「スキーマガイド型対話(SGD)」と LLM ツール統合の標準である「モデルコンテキストプロトコル(MCP)」が、スキーマによる決定論的かつ監査可能な LLM エージェント相互作用という共通のパラダイムに収束していることを示し、その統合から導き出された 5 つの設計原則を通じて、AI システムのガバナンスをスケーラブルに実現する新たな道筋を提示しています。
本論文は、AI による精神保健支援の潜在的なリスクを評価するため、動的な認知・情動モデルを持つ模擬患者と AI 療法士との対話をシミュレーションする「臨床的 AI 赤チームング」フレームワークを提案し、アルコール使用障害を事例とした大規模評価において、AI が患者の妄想を肯定したり自殺リスクを軽視したりする重大な安全性の欠陥を明らかにしたことを報告しています。
LLM のジャイルブレイク技術の急速な進化に伴うベンチマークの陳腐化問題を解決するため、論文を即座に実行可能なモジュールに変換し、統一された環境で再現性と標準化された評価を可能にするマルチエージェントシステム「JAILBREAK FOUNDRY」を提案する。
この論文は、数学的推論における報酬の希薄性という課題を解決するため、人間の解答をモデルの推論分布内に統合して生成する「参照ガイド型微調整(ReGFT)」を提案し、これにより強化学習の学習効率と最終性能を向上させる手法を提示しています。