Arbiter: Detecting Interference in LLM Agent System Prompts
本論文は、LLM ベースのコーディングエージェントのシステムプロンプトにおける干渉パターンを検出するフレームワーク「Arbiter」を提案し、主要なベンダーのプロンプトに多数の脆弱性を発見し、プロンプト構造と失敗クラスの相関やマルチモデル評価の重要性を実証した。
2385 件の論文
本論文は、LLM ベースのコーディングエージェントのシステムプロンプトにおける干渉パターンを検出するフレームワーク「Arbiter」を提案し、主要なベンダーのプロンプトに多数の脆弱性を発見し、プロンプト構造と失敗クラスの相関やマルチモデル評価の重要性を実証した。
本論文は、自律エージェント間の協調によって生じる新たなセキュリティ脅威を体系的に分析し、既存の 16 のセキュリティフレームワークを評価した結果、どのフレームワークも包括的な対策を欠いており、特に OWASP のイニシアチブや CDAO のツールキットが相対的に優れていることを実証的に示しています。
本論文は、ASVspoof 5 データセットを用いた音声ディープフェイク検出モデルの分析を通じて、従来の総合誤り率だけでは隠れてしまう性別による性能偏在を公平性指標で明らかにし、より公平で信頼性の高いシステム構築には公平性重視の評価が不可欠であることを示しています。
この論文は、ロボットの行動表現空間を探索する際に、ユーザーの体験を考慮して知覚的に明確で情報量の多い軌道を提案する「CMA-ES-IG」というアルゴリズムを提案し、高次元空間でのスケーラビリティ、計算効率、ノイズへの頑健性、および非専門家ユーザーによる評価の向上を実験的に実証したものである。
API 依存の医療 AI が抱えるコストやプライバシー課題を解決するため、最先端モデルから戦略的行動を蒸留した軽量な 40 億パラメータのマルチモーダル医療エージェント「Meissa」を提案し、オフライン環境で最先端モデルに匹敵する性能と大幅な低遅延を実現したことを示しています。
この論文は、従来の評価指標では捉えきれない人間と AI の複雑な体験を「AI 現象学」という枠組みで理解し、ユーザーの第一人称の感覚を重視する研究方法論、設計概念、および研究課題を提示しています。
この論文は、マルチターン・マルチエージェント LLM ゲームにおける推論時のコンテキストを、自己対戦から得られた構造化された知見を保持する「保持」と、不確実性を考慮したプロンプト進化を行う「探索」を組み合わせる MEMO というフレームワークで最適化することで、勝率の向上と結果の安定化を実現することを提案しています。
この論文は、LLM のコンテキストウィンドウを単なるキャッシュではなく、仮想メモリとして扱う「Pichay」と呼ばれる需要ページングシステムを提案し、生産環境での実証を通じて、不要な情報の排除とページフォルト駆動のピン留めによりコンテキスト消費を最大 93% 削減可能であることを示しています。
本論文は、LLM とコサイン類似度を活用した自動化パイプラインを開発し、量子ソフトウェアにおけるフラキーテストの検出と根本原因分析を効率化するとともに、既存データセットを 54% 拡大し、特に Google Gemini モデルが高精度な分類と原因特定を実現することを示しています。
この論文は、人間の成功に偏ったデモデータに依存せず、自律的なロボット自己遊戯から学習することで、物理的に一貫性のある高品質な動画世界モデルを構築し、実世界での政策性能を大幅に向上させる「PlayWorld」というシステムを提案しています。
この論文は、状態空間モデルと弱信号注意機構を統合した深層学習フレームワーク「WS-Net」を提案し、ハイパースペクトル画像の弱信号の崩壊を解決して、低 SNR 条件下でも主要なエンドメンバーと弱エンドメンバーの両方に対して高精度な豊度推定を実現することを示しています。
この論文は、言語モデルエージェントの「安定した自己」としての振る舞いと、その背後にある組織化の整合性を区別し、Stack 理論に基づく時間的ギャップの概念を応用してアイデンティティ評価のための保守的なツールキットを提案するものである。
この論文は、プロンプトやコード、機械学習システムなどの多様な環境における自律的な最適化を、基盤構築と反復的改善の 2 段階、および計画・実装・評価の役割分離ステージを通じて統一的に管理し、安定性と追跡可能性を確保する新しいエンジニアリングプロトコル「EPOCH」を提案しています。
この論文は、遠隔患者モニタリングで生成される膨大なデータを臨床スタッフが処理する課題を解決するため、自律型 AI エージェント「Sentinel」を開発し、従来の医師による監視を上回る感度とスケーラビリティで臨床的トリアージを可能にしたことを報告しています。
本論文は、意思決定に重要な領域におけるシミュレーションの誤差を敵対的較正で補正し、グループ相対摂動により方策学習を安定化させる「Sim2Act」というフレームワークを提案することで、ノイズやバイアスを含む実世界データから学習されたシミュレータを用いた堅牢な意思決定学習を実現するものである。
この論文は、テキスト作成の自然なプロセスに合わせ、アセット定義から編集・音声追加まで単一のドキュメント内で完結させる「Doki」というテキストネイティブな生成動画制作インターフェースを提案し、その設計原理と多様な専門性を持つユーザーを対象とした実証研究を通じて、視覚的ストーリーテリングの新たな可能性を示しています。
本論文は、2D パッチトークンに代わるアノトロピック 3D ガウスプリミティブを用いた「ガウス空間トークナイザー(GST)」と、3D 物体接地や把持幾何学などを明示的に生成する「3D 深度認識推論(DA-CoT)」を統合した VLA モデル「GST-VLA」を提案し、複雑な 3D 操作タスクにおいて既存モデルを上回る精度を達成したことを報告するものである。
この論文は、Qwen3 微調整モデルを用いて英語と中国語のニュースから抽出したセンチメントデータを、LSTM モデルに統合することで、特に市場変動が激しい時期においてアルミニウム価格の予測精度と経済的有用性が大幅に向上することを示しています。
本論文は、自動運転における生成ワールドモデルと VLA システムの進展を統合する潜在空間フレームワークを提案し、その分類体系、内部メカニズム、評価基準、および将来の課題を包括的に論じています。
この論文は、皮膚がんの画像検索タスクにおいて、参照画像とテキスト記述を組み合わせたクエリに対して、トランスフォーマーベースのフレームワークを用いて局所的な病変領域と大域的な意味情報を統合的に整合させることで、最先端の手法を上回る性能を達成する手法を提案し、Derm7pt データセットでその有効性を検証したものである。